0

アイテムの類似性のために、Mahout VectorNormMapper に LP 空間正規化が使用されているのはなぜですか。CosineSimilarity では 2 のノルム パワーがうまく機能することもお読みください。

なぜそれが使用されているのか、特定の類似度クラスに対して電力の最適な値をどのように決定できるのかについての直感的な説明はありますか?

4

1 に答える 1

1

ベクトル ノルムは、任意の L_p メトリックに対して定義できます。取り組んでいる問題に応じて、異なる規範には異なる特性があります。p の一般的な値には 1 と 2 があり、場合によっては 0 が使用されます。

Mahout の特定の類似関数は、特定の規範と密接に関連しています。コサイン類似度の例は良い例です。コサイン類似度は、両方のベクトル入力を L_2 長 = 1 になるようにスケーリングし、ドット積をとることによって計算されます。ベクトルがデカルト空間で表現されている場合、この値はベクトル間の角度のコサインに等しくなります。この値も sqrt(1-d^2) です。ここで、d は正規化されたベクトル間の差の L_2 ノルムです。

これは、コサイン類似度と L_2 距離の間に密接な関係があることを意味します。

それはあなたの質問に答えていますか?

これらの質問は、Apache Mahout メーリング リストでより迅速に回答される可能性があります。

于 2014-04-13T13:47:42.727 に答える