machine-learning - クラスタリングベースライン比較、KMeans

Question

kmeans クラスタリングの K を推測するアルゴリズムに取り組んでいます。比較として使用できるデータセット、またはクラスターの数が「わかっている」いくつかのデータセットを探しているので、アルゴリズムが K を推測する方法を確認できると思います.

score 0 · Accepted Answer

手段に焦点を当てているkので、最適な手段を見つけるためにさまざまな尺度 (シルエット、デイビス-ボルディンなど) を使用することを検討しましたkか?

実際には、「最適な」k は適切な選択ではない場合があります。ほとんどの場合、はるかに大きな k を選択し、結果のクラスター/プロトタイプをより詳細に分析して、複数の k-means パーティションからクラスターを構築します。

score 0 · Accepted Answer

最初に UCI リポジトリでデータセットを確認します。

ラベルが付いているものもあると思います。

もう 1 つの優れた方法 (私の論文の議長が常に推奨していた方法) は、独自の小さなサンプルデータセットを構築することです。これを行う最善の方法は、小さく始めて、グラフィカルに表現できる 2 つまたは 3 つの変数だけで何かを試してから、クラスターに自分でラベルを付けることです。

自作の小さなデータセットの追加の利点は、答えがわかっていることと、デバッグに最適であることです。

machine-learning - クラスタリング ベースライン比較、KMeans