0

キーワードを検索している一連のドキュメントがあります。キーワードとすべてのドキュメントのtf-idf値を計算しました。すべてのドキュメントの配列にtf-idf値を格納していると仮定します。これを使用して、余弦の類似度を計算するにはどうすればよいですか?コードに関するあらゆる種類のヘルプに感謝します!

4

1 に答える 1

1

配列は、用語の数に等しい要素の数を持つ各ドキュメントに1つずつ、ベクトルのコレクションとして表示できます。2つのドキュメントの類似性を判断するには、通常の方法で対応するベクトルの内積(対応するベクトル成分の積の合計)を計算し、それを2つのベクトルのノルムの積で除算します

類似度を計算する前に、ベクトルを正規化するのが実用的です。この場合、標準は1になるため、ドキュメントベクトルの内積を使用するだけです。

于 2012-04-23T12:31:21.560 に答える