pattern-matching - 最大値または合計値で正規化しますか?

Question

ドキュメントの比較を含む作業を行っています。これを行うために、私は各文書を分析し、基本的にこれらの各文書にいくつかのキーワードが出現する回数を数えています。例えば：

Document 1:                          Document 2:
    Book   -> 3                          Book   -> 9
    Work   -> 0                          Work   -> 2
    Dollar -> 5                          Dollar -> 1
    City   -> 18                         City   -> 6

したがって、カウントプロセスの後、これらすべての一連の数値をベクトルに格納します。この一連の数字は、各ドキュメントの特徴ベクトルを表します。

Document 1: [ 3,  0,  5, 18]
Document 2: [ 9,  2,  1,  6]

最後のステップは、データをからの範囲で正規化すること[0 1]です。しかし、ここで、これが 2 つの異なるアプローチに従って実行できることに気付きました。

数字の各シーケンスを繰り返しの合計数で割る
数字の各シーケンスを最大繰り返し数で割る

最初のアプローチに従うと、正規化の結果は次のようになります。

Document 1: [ 0.11538,  0.00000,  0.19231, 0.69231]   (divided by 26)
Document 2: [ 0.50000,  0.11111,  0.05556, 0.33333]   (divided by 18)

2 番目のアプローチに従うと、結果は次のようになります。

Document 1: [ 0.16667,  0.00000,  0.27778, 1.00000]   (divided by 18)
Document 2: [ 1.00000,  0.22222,  0.11111, 0.66667]   (divided by  9)

この特定のケースでは:

これら 2 つのアプローチのうち、特徴ベクトルの表現と比較を強化するのはどれですか?
結果は同じになるでしょうか？
これらのアプローチのいずれかが、特定の類似度 (ユークリッド、コサイン) でうまく機能しますか?

score 1 · Accepted Answer

表記

2つのベクトルがAあり、の正規化定数として、およびの正規化定数としてB使用するとします。単語の出現回数を数えているので、とを仮定することができます。xAyBx > 0y > 0

コサイン距離

以下に示す余弦距離の場合、正規化定数はキャンセルされます。見やすく、最終的に1/(xy)列挙子で定数を取得1/(xy)し、分母で同じ定数を取得します。だからあなたはキャンセルすることができます1/(xy)。

ここに画像の説明を入力してください

ユークリッド距離

ユークリッド距離の場合、上記の場合はそうではありません。AとBを2次元ベクトルと仮定して、以下に例を示します。n次元ベクトルは、その単純な拡張です。A'とはそれぞれとB'の正規化されたベクトルです。AB

ここに画像の説明を入力してください

dist(A,B)の非正規化バージョンをの正規化バージョンと比較するとdist(A',B')、次のことがわかります。選択した正規化定数（最大または合計）によって、の重みと交互作用項が決まりx1^2+x2^2ますy1^2+y2^2。その結果、正規化定数が異なれば、距離も異なります。

特徴ベクトル

これが情報検索やトピック抽出の目的である場合、TF-IDFを試しましたか？これは、用語の出現を純粋に数えるよりも良い方法かもしれません。

pattern-matching - 最大値または合計値で正規化しますか?

1 に答える 1

表記

コサイン距離

ユークリッド距離

特徴ベクトル

Related

Reference