tf-idf - 2 つのテキストドキュメントを一致させる最良の方法

Question

私は2つのテキストドキュメントをインテリジェントに作成するようなソフトウェアを作成しようとしています.DIFFのようではなく、テキストがどれだけ一致するかをチェックするようなものです。

しかし、私はそれらの両方の間で混乱しています。どちらが優れているのかわかりません。また、テキストドキュメントを一致させる他の手法はありますか?

score 0 · Accepted Answer

コサイン距離でドキュメントの類似性を測定することを見ましたか? コサイン類似度は、内積空間の 2 つのベクトル間の類似度の尺度であり、それらの間の角度のコサインを測定しますhttp://en.wikipedia.org/wiki/Cosine_similarity

ドキュメント A と B がある場合、ドキュメント A と B に対して 2 つの単語ベクトルを作成できます。単語ベクトル A には、ドキュメント A からの単語と、ドキュメントの各単語の頻度が含まれます。生の単語頻度の代わりに、TF-IDF 重み付けを行うことができます。同じことがドキュメント B にも当てはまります。用語ベクトル A と B があれば、ドキュメント A と B を表す用語ベクトル A と B のコサイン類似度を計算できます。用語ベクトルを作成する前に、ストップワードのフィルタリングなどの前処理タスクを実行します。

tf-idf - 2 つのテキスト ドキュメントを一致させる最良の方法

1 に答える 1

Related

Reference

tf-idf - 2 つのテキストドキュメントを一致させる最良の方法