cluster-computing - MahoutClusterDump-graphml出力を表示すると奇妙な結果

Question

私はMahoutを使用して、XMLとSOLRの両方のインデックス入力を使用してテキストドキュメントをk-meansクラスター化してきました。

クラスタリングは機能しているように見え、同様のドキュメントが実際に同じk-meansクラスターに配置されています。これはすばらしいことです。

ただし、ClusterDump（--outputFormat GRAPH_ML）を使用してgraphml出力を表示すると、すべてのクラスターを示すプロットが表示されますが、各要素はその親クラスターの円周の周りに表示されます。つまり、各要素の重心からの半径はほぼ同じです。

お互いの類似性に応じて、要素がクラスター全体に分散することを期待していました（Mahoutの例のように）。

Mahout k-meansクラスターに似たものを見た人はいますか？私は自分でこれの根底に到達しようとしましたが、どんなヒントや提案も大きな助けになるでしょう。

どうもありがとうございました

Pモリス

score 0 · Accepted Answer

mahout と kmeans アルゴリズムを使用して solr インデックス入力をクラスター化する方法を説明できますか?

ところで、.txt ファイルをクラスタ化したときの出力 (clusters_dump) は次のようになります。

CL-0{n=0 c=[0:1.000、1:1.000、2:3.162、3:1.000、4:4.796、6:1.000、7:1.000、8:1.000、9:1.000、10:1.000、 11:1.000、12:4.690、14:1.000、15:11.446、16:4.359] r=[]}

CL-1{n=0 c=[0:1.000、1:1.000、2:3.162、3:1.000、6:1.000、7:1.000、8:1.000、9:1.000、10:1.000、11:1.000、 14:1.000、15:11.446] r=[]}

CL-2{n=0 c=[4:1.000, 12:1.000, 13:8.315, 16:1.000] r=[]}

クラスターの数を 3 に指定したためです。

cluster-computing - MahoutClusterDump-graphml出力を表示すると奇妙な結果

1 に答える 1

Related

Reference