コサイン類似性を使用して単一のドキュメントを一連のドキュメントと比較する良い方法があるかどうか疑問に思っています。明らかに、単一のドキュメントとセット内のすべてのドキュメントの間の余弦の類似性を計算できますが、これを実行した場合、平均を取りますか?元のドキュメントと比較している他の各ドキュメントのサイズで重み付けしますか?また、比較しているドキュメントのセット内のすべての単語数を組み合わせて、最終的にコサイン類似度を1回だけ計算する方法があるかどうか疑問に思っています。元のドキュメントと「集約された」ドキュメントの間。私が尋ねている理由は、約50,000のドキュメントの個別のセットと比較したい約200,000のドキュメントがあるためです.200,000のそれぞれを50のそれぞれと比較すると、000は多くの計算であり、とにかく最終的にある種の平均を取るつもりである場合、それが実際に必要かどうかはわかりません。私の集約されたドキュメントのアイデアは大したことではありませんか?
質問する
487 次
1 に答える
0
これを大幅に高速化する方法があります。ポイントは、単語ベクトルがまばらであることに注意することです。したがって、文書を単語列で編成された表に変換したいとします。単語ごとに 1 列。各列には、ゼロ以外のエントリのみを保存します。これは、実際にその単語を含むドキュメントごとに 1 行です。次に、列を調べて部分合計を計算し、ドキュメントごとに結果を収集します。これには、並列化が容易であるという追加の利点があります。
これをさらに高速化するには、セットごとに単語ごとに列を作成し、異なるセットのドキュメントの同じ単語の部分和のみを計算して配布します。
于 2013-09-17T17:46:01.223 に答える