何らかの方法で比較したい 300.000 程度のベクトルのセットがあり、1 つのベクトルを指定して、3 つの方法で考えた最も近いベクトルを見つけたいと考えています。
- 単純なユークリッド距離
- コサイン類似度
- グラム行列を計算するには、カーネル (ガウスなど) を使用します。
- ベクトルを離散確率分布として扱い(これは理にかなっています)、発散測度を計算します。
どちらか一方を実行する方が便利な場合はよくわかりません。私のデータにはゼロ要素がたくさんあります。それを念頭に置いて、3 つの方法のうちどれが最適かについての一般的な経験則はありますか?
弱い質問で申し訳ありませんが、どこかから始めなければなりませんでした...
ありがとうございました!