K-means を使用して、約 1200 のバイナリ変数に基づいて約 12000 の要素をクラスター化しようとしています。従来の距離測定基準 (ユークリッド、マンハッタン、ハミング、レーベンシュタイン) のいずれも満足のいく結果を生み出していません。
以下の指標を考案しました。
Dist(x,y)= P(x=0|y=1) P(y=0|x=1)の最小値
この種の問題に対して同様のアプローチを使用した人はいますか? この指標の使用に明らかな欠陥はありますか? 私はデータマイニングに比較的慣れていないため、フィードバックをいただければ幸いです。
ありがとう