kmeans クラスタリングの K を推測するアルゴリズムに取り組んでいます。比較として使用できるデータセット、またはクラスターの数が「わかっている」いくつかのデータセットを探しているので、アルゴリズムが K を推測する方法を確認できると思います.
3 に答える
0
手段に焦点を当てているk
ので、最適な手段を見つけるためにさまざまな尺度 (シルエット、デイビス-ボルディンなど) を使用することを検討しましたk
か?
実際には、「最適な」k は適切な選択ではない場合があります。ほとんどの場合、はるかに大きな k を選択し、結果のクラスター/プロトタイプをより詳細に分析して、複数の k-means パーティションからクラスターを構築します。
于 2013-08-01T08:14:50.310 に答える
0
最初に UCI リポジトリでデータ セットを確認します 。
ラベルが付いているものもあると思います。
20newsgroups: http://qwone.com/~jason/20Newsgroups/など、論文でベースラインとしてよく使用されるテキスト クラスタリング データ セットがあります。
もう 1 つの優れた方法 (私の論文の議長が常に推奨していた方法) は、独自の小さなサンプル データ セットを構築することです。これを行う最善の方法は、小さく始めて、グラフィカルに表現できる 2 つまたは 3 つの変数だけで何かを試してから、クラスターに自分でラベルを付けることです。
自作の小さなデータ セットの追加の利点は、答えがわかっていることと、デバッグに最適であることです。
于 2013-07-31T19:45:17.600 に答える