バイナリ データのデータセット 6x1000 (6 データ ポイント、1000 ブール値) があります。
それに対してクラスター分析を実行します
[idx, ctrs] = kmeans(x, 3, 'distance', 'hamming');
そして、3 つのクラスターを取得します。結果を視覚化するにはどうすればよいですか?
それぞれ 1000 個の属性を持つ 6 行のデータがあります。そのうちの 3 つは、ある意味で似ているか似ている必要があります。クラスタリングを適用すると、クラスターが明らかになります。クラスターの数がわかっているので、同様の行を見つけるだけで済みます。ハミング距離は、行間の類似性を示しており、結果は 3 つのクラスターがあるという正しい結果です。
[編集: 合理的なデータの場合、kmeans は常に要求された数のクラスターを見つけます]
私はその知識を取り入れて、膨大な説明を書かなくても、簡単に観察でき、理解できるようにしたいと考えています。
私の質問はn次元のカテゴリデータに関するものですが、Matlabの例は数値の2Dデータを扱うため、適切ではありません。
データセットはこちらhttp://pastebin.com/cEWJfrAR
[EDIT1: クラスターが重要かどうかを確認する方法は?]
詳細については、次のリンクを参照してください: https://chat.stackoverflow.com/rooms/32090/discussion-between-oleg-komarov-and-justcurious
質問が明確でない場合は、不足しているものがないか尋ねてください。