k-means を使用してクラスター化された多次元データ セット データ セットに対して次元削減を実行する必要があります。データには、触覚グローブに配置されたセンサーのセンサー読み取り値から得られた正と負の実数が含まれています。データは、文字「A」を描くアクションを次のように表現しながらキャプチャされます。
0.1373 -1.8764
-1.7020 -0.8322
0.4862 0.8276
-0.0078 1.3597
0.9008 1.8043
2.9751 0.7125
-0.3257 0.1754
今、私の混乱は
- 次のコードを使用して多次元データのクラスタリングを取得できません
K=3; load('b2.txt'); data = b2; numObservarations = length(data); %% cluster opts = statset('MaxIter', 500, 'Display', 'iter'); [clustIDX, clusters, interClustSum, Dist] = kmeans(data, K, 'options',opts, ... 'distance','sqEuclidean', 'EmptyAction','singleton', 'replicates',3); %% plot data+clusters figure, hold on scatter3(data(:,1),data(:,2),data(:,3), 50, clustIDX, 'filled') scatter3(clusters(:,1),clusters(:,2),clusters(:,3), 200, (1:K)', 'filled') hold off, xlabel('x'), ylabel('y'), zlabel('z')
これを修正する方法は?何が問題なのですか?
すべての次元でクラスターを取得した後、データをクラスター ラベルで次のように表します。
1 1 3 2
等々。
- このデータには、イベントの時間的な順序が組み込まれていますか? 一見するとそうですが、クラスタリングは時間的順序を考慮していないと言う論文があります。
- 長さを短くする必要があります。私は主成分分析を認識していますが、それは次元を選択するために使用され、データの長さを削減しません。入力テスト データ セットを使用した距離ベースの分類に、この短縮された形式を使用することは合理的ですか?