ドキュメントの比較を含む作業を行っています。これを行うために、私は各文書を分析し、基本的にこれらの各文書にいくつかのキーワードが出現する回数を数えています。例えば:
Document 1: Document 2:
Book -> 3 Book -> 9
Work -> 0 Work -> 2
Dollar -> 5 Dollar -> 1
City -> 18 City -> 6
したがって、カウントプロセスの後、これらすべての一連の数値をベクトルに格納します。この一連の数字は、各ドキュメントの特徴ベクトルを表します。
Document 1: [ 3, 0, 5, 18]
Document 2: [ 9, 2, 1, 6]
最後のステップは、データを から の範囲で正規化すること[0 1]
です。しかし、ここで、これが 2 つの異なるアプローチに従って実行できることに気付きました。
- 数字の各シーケンスを繰り返しの合計数で割る
- 数字の各シーケンスを最大繰り返し数で割る
最初のアプローチに従うと、正規化の結果は次のようになります。
Document 1: [ 0.11538, 0.00000, 0.19231, 0.69231] (divided by 26)
Document 2: [ 0.50000, 0.11111, 0.05556, 0.33333] (divided by 18)
2 番目のアプローチに従うと、結果は次のようになります。
Document 1: [ 0.16667, 0.00000, 0.27778, 1.00000] (divided by 18)
Document 2: [ 1.00000, 0.22222, 0.11111, 0.66667] (divided by 9)
この特定のケースでは:
- これら 2 つのアプローチのうち、特徴ベクトルの表現と比較を強化するのはどれですか?
- 結果は同じになるでしょうか?
- これらのアプローチのいずれかが、特定の類似度 (ユークリッド、コサイン) でうまく機能しますか?