text - テキスト比較の高速化 (スパース行列を使用)

Question

2 つの文字列を取り、両方のテキスト間の関係を示すコサイン類似度値を与える関数があります。

75 個のテキストを相互に比較したい場合、すべてのテキストを相互に比較するには、5,625 回の単一比較を行う必要があります。

この比較回数を減らす方法はありますか? たとえば、スパース行列または k-means?

自分の機能やテキストを比較する方法については話したくありません。比較の数を減らすだけです。

score 1 · Accepted Answer

アルゴリズムがペアワイズである場合、定義上、おそらく比較の数を減らすことはできません。

比較の数を減らしたい場合は、別のアルゴリズムを使用するか、少なくとも入力を前処理する必要があります。

あなたの機能の詳細がなければ、具体的な助けを与えることは困難です。

score 1 · Accepted Answer

Ben の言うことは本当です。より良いサポートを得るには、何が目標であるかを私たちに伝える必要があります。

たとえば、類似した文字列を見つけたい場合に考えられる最適化の 1 つは、文字列ベクトルを四分木などの空間データ構造に格納することです。これにより、互いに離れすぎているベクトルを完全に破棄して、多くの比較を回避できます。

2 に答える 2