4

ドキュメントの比較を含む作業を行っています。これを行うために、私は各文書を分析し、基本的にこれらの各文書にいくつかのキーワードが出現する回数を数えています。例えば:

Document 1:                          Document 2:
    Book   -> 3                          Book   -> 9
    Work   -> 0                          Work   -> 2
    Dollar -> 5                          Dollar -> 1
    City   -> 18                         City   -> 6

したがって、カウントプロセスの後、これらすべての一連の数値をベクトルに格納します。この一連の数字は、各ドキュメントの特徴ベクトルを表します。

Document 1: [ 3,  0,  5, 18]
Document 2: [ 9,  2,  1,  6]

最後のステップは、データを から の範囲で正規化すること[0 1]です。しかし、ここで、これが 2 つの異なるアプローチに従って実行できることに気付きました。

  1. 数字の各シーケンスを繰り返しの合計数で割る
  2. 数字の各シーケンスを最大繰り返し数で割る

最初のアプローチに従うと、正規化の結果は次のようになります。

Document 1: [ 0.11538,  0.00000,  0.19231, 0.69231]   (divided by 26)
Document 2: [ 0.50000,  0.11111,  0.05556, 0.33333]   (divided by 18)

2 番目のアプローチに従うと、結果は次のようになります。

Document 1: [ 0.16667,  0.00000,  0.27778, 1.00000]   (divided by 18)
Document 2: [ 1.00000,  0.22222,  0.11111, 0.66667]   (divided by  9)

この特定のケースでは:

  • これら 2 つのアプローチのうち、特徴ベクトルの表現と比較を強化するのはどれですか?
  • 結果は同じになるでしょうか?
  • これらのアプローチのいずれかが、特定の類似度 (ユークリッド、コサイン) でうまく機能しますか?
4

1 に答える 1

1

表記

2つのベクトルがAあり、の正規化定数として、およびの正規化定数としてB使用するとします。単語の出現回数を数えているので、とを仮定することができます。xAyBx > 0y > 0

コサイン距離

以下に示す余弦距離の場合、正規化定数はキャンセルされます。見やすく、最終的に1/(xy)列挙子で定数を取得1/(xy)し、分母で同じ定数を取得します。だからあなたはキャンセルすることができます1/(xy)

ここに画像の説明を入力してください

ユークリッド距離

ユークリッド距離の場合、上記の場合はそうではありません。ABを2次元ベクトルと仮定して、以下に例を示します。n次元ベクトルは、その単純な拡張です。A'とはそれぞれとB'の正規化されたベクトルです。AB

ここに画像の説明を入力してください

dist(A,B)の非正規化バージョンをの正規化バージョンと比較するとdist(A',B')、次のことがわかります。選択した正規化定数(最大または合計)によって、の重みと交互作用項が決まりx1^2+x2^2ますy1^2+y2^2。その結果、正規化定数が異なれば、距離も異なります。

特徴ベクトル

これが情報検索やトピック抽出の目的である場合、TF-IDFを試しましたか?これは、用語の出現を純粋に数えるよりも良い方法かもしれません。

于 2012-12-05T02:57:18.450 に答える