次のデータ (サンプル) に対してクラスター分析を実行します。
ID CODE1 CODE2 CODE3 CODE4 CODE5 CODE6
------------------------------------------------------------------
00001 0 1 1 0 0 0
00002 1 0 0 0 1 1
00003 0 1 0 1 1 1
00004 1 1 1 0 1 0
...
1 はその人物のコードの存在を示し、0 は不在を示します。この種のデータ (約 100 万の異なる ID) のコードをクラスタリングするのに最も適しているのは k 平均法または階層的クラスタリングですか? ? これらの方法のどちらも適切でない場合、どの方法が最も適切だと思いますか?
ありがとうございました