0

kmeans クラスタリングの K を推測するアルゴリズムに取り組んでいます。比較として使用できるデータセット、またはクラスターの数が「わかっている」いくつかのデータセットを探しているので、アルゴリズムが K を推測する方法を確認できると思います.

4

3 に答える 3

0

手段に焦点を当てているkので、最適な手段を見つけるためにさまざまな尺度 (シルエット、デイビス-ボルディンなど) を使用することを検討しましたkか?

実際には、「最適な」k は適切な選択ではない場合があります。ほとんどの場合、はるかに大きな k を選択し、結果のクラスター/プロトタイプをより詳細に分析して、複数の k-means パーティションからクラスターを構築します。

于 2013-08-01T08:14:50.310 に答える
0

最初に UCI リポジトリでデータ セットを確認します

ラベルが付いているものもあると思います。

20newsgroups: http://qwone.com/~jason/20Newsgroups/など、論文でベースラインとしてよく使用されるテキスト クラスタリング データ セットがあります。

もう 1 つの優れた方法 (私の論文の議長が常に推奨していた方法) は、独自の小さなサンプル データ セットを構築することです。これを行う最善の方法は、小さく始めて、グラフィカルに表現できる 2 つまたは 3 つの変数だけで何かを試してから、クラスターに自分でラベルを付けることです。

自作の小さなデータ セットの追加の利点は、答えがわかっていることと、デバッグに最適であることです。

于 2013-07-31T19:45:17.600 に答える