K-Means と Clustering を使用した WEKA に取り組んでいます。
一般に、プロジェクトのデータセットでさまざまなアルゴリズムを調べています。
選択すべき最適な SSE/クラスターの比率を決定できません。
理論的には、クラスターを増やすと SSE は減少しますが、どこまで ?
K = (n/2)^0.5 というフィンガー ルールが見つかりました。
1782 次
1 に答える
0
Weka には多くのクラスタリングがないことに注意してください。主に分類ツールです。
平方和は、非常にk-means 中心の尺度です。この測定値を他のアルゴリズムで使用する必要はありません。これはオーバーフィッティングです: これは k-means が最適化する測定値であるため、もちろん最適な結果が得られます (別のクラスターを追加することで、この測定値をさらに改善することができますが、これは当然のことです)。
クラスタリングの品質を評価したい場合、最も信頼できる (ただし疑わしい) 方法は、ラベル付けされたデータ セットを使用することです。
于 2013-04-23T08:05:47.967 に答える