0

k-means とユークリッド距離アルゴリズムを使用してデータをクラスター化しています (iris.csv)。ただし、それらすべてを正しいグループにクラスター化することはできません。間違ったグループ内にいくつかのデータがあります。

すべてのデータを適切なグループに 100% クラスター化することは可能ですか?

もう 1 つの疑問は、k を選択するための最良の基準は何かということです。

ご協力ありがとうございました。

4

2 に答える 2

0

K-meansは、同じサイズの凸型クラスターを作成する傾向がありました。クラスタのサイズが大きく異なる場合や形状が不規則な場合は、他のアルゴリズムの方がパフォーマンスが向上する可能性があります。http://en.m.wikipedia.org/wiki/Cluster_analysis#Clustering_algorithms

于 2013-03-20T21:09:25.753 に答える
0

通常、クラスタリングアルゴリズムの使用は、特定のセットに適切なグループが実際にわからない場合です。アルゴリズムが特定のトレーニングセットからのすべてのデータを正しくクラスター化したとしても、それでもデータが正しくクラスター化されることを意味するわけではありません。さらに、通常はパフォーマンスが低下するため、サンプルデータへの過剰適合を回避するようにしてください。

kの選択に関しては、いくつかのアルゴリズムがあり、解決しようとする問題に応じて最適なアルゴリズムが異なる場合があります。

于 2013-03-20T17:55:56.407 に答える