2

これは些細な質問かもしれません。特別な高次元データセットに適した距離関数をどのように選択できますか?ユークリッド距離などの一部の距離関数は、高次元データではうまく機能しないことを読みました。それが私たちに良い距離測度を与えることができない場合、どのような機能ができますか?

4

1 に答える 1

2

それは基本的に、空間が次元の増加とともに指数関数的により空になるという次元の呪いから来ています.

最適な距離測定はデータに大きく依存しますが、ミンコフスキー距離の p の値を小さくして相互検証を行うことをお勧めします

mikowsky_distance = sum_i(|u_i-v_i|^p)^(1/p)

マンハッタン距離 (L1) である p=1 は、ほとんどの高次元の場合、ユークリッド (L2) を使用するよりも優れており、テストが非常に簡単です。また、1/4 のような小さい値を取得して、何が起こるかを確認してください。min-dstance である制限 p-> -inf を試すこともできますmin(|u_i-v_i|)。p の値が小さいほど、一致度の低いディメンションと比較して、類似度が最も高いディメンションの重みが大きくなります。

紙を読むことをお勧めします

http://www-users.cs.umn.edu/~kumar/papers/siam_hd_snn_cluster.pdf

主題に触れるもの。

于 2012-08-28T20:27:19.993 に答える