2

K-means を使用して、約 1200 のバイナリ変数に基づいて約 12000 の要素をクラスター化しようとしています。従来の距離測定基準 (ユークリッド、マンハッタン、ハミング、レーベンシュタイン) のいずれも満足のいく結果を生み出していません。

以下の指標を考案しました。

Dist(x,y)= P(x=0|y=1) P(y=0|x=1)の最小値

この種の問題に対して同様のアプローチを使用した人はいますか? この指標の使用に明らかな欠陥はありますか? 私はデータマイニングに比較的慣れていないため、フィードバックをいただければ幸いです。

ありがとう

4

2 に答える 2

1

バイナリ属性に対して Jaccard の距離を使用できます。2 つの行 A と B を比較しているとします。

M11 - is the number of attributes where both Ai=Bi=1
M01 - is the number of attributes where Ai=0 and Bi=1
M10 - is the number of attributes where Ai=1 and Bi=0

ジャカード係数は

J = M11/(M11+M10+M01)

Jaccard 距離は次のようになります。

D=(M01+M10)/(M11+M10+M01) 
于 2016-12-26T11:11:14.670 に答える
1

モデル化しようとしているドメインは何ですか? ドメインからの洞察をクラスタリングに使用できますか? この一般的な設定で言えることはほとんどありません。より意味のある機能を最初に取得し、後でクラスター化するために次元削減を試みますが、ドメイン知識がここで役立ちます。

于 2011-03-13T08:21:31.190 に答える