私はMahoutを使用して、XMLとSOLRの両方のインデックス入力を使用してテキストドキュメントをk-meansクラスター化してきました。
クラスタリングは機能しているように見え、同様のドキュメントが実際に同じk-meansクラスターに配置されています。これはすばらしいことです。
ただし、ClusterDump(--outputFormat GRAPH_ML)を使用してgraphml出力を表示すると、すべてのクラスターを示すプロットが表示されますが、各要素はその親クラスターの円周の周りに表示されます。つまり、各要素の重心からの半径はほぼ同じです。
お互いの類似性に応じて、要素がクラスター全体に分散することを期待していました(Mahoutの例のように)。
Mahout k-meansクラスターに似たものを見た人はいますか?私は自分でこれの根底に到達しようとしましたが、どんなヒントや提案も大きな助けになるでしょう。
どうもありがとうございました
Pモリス