7

一部のデータをクラスター化するために必要なクラスターの適切な数を評価しようとしています。

これは、Davies-Bouldin Index (DBI) を使用して可能であることを知っています。

DBI を使用するには、任意の数のクラスターについて計算する必要があり、DBI を最小化するものは、必要な適切な数のクラスターに対応します。

質問は:

DBI を使用して 2 つのクラスターが 1 つのクラスターよりも優れているかどうかを知る方法は? では、クラスタが 1 つしかない場合、DBI を計算するにはどうすればよいでしょうか?

4

1 に答える 1

6

すべてのクラスターの平均のみを考慮することはDBI、明らかに良い考えではありません。

確かに、クラスタの数を増やすと、kペナルティなしで、結果として生じるクラスタリングの DBI の量が常に減少し、DBI各データ ポイントが独自のクラスタと見なされる場合は極端な場合はゼロになります (各データ ポイントが独自の重心と重複するため)。 .

DBI を使用して 2 つのクラスターが 1 つのクラスターよりも優れているかどうかを知る方法は? では、クラスタが 1 つしかない場合、DBI を計算するにはどうすればよいでしょうか?

DBIそのため、パフォーマンス メトリックとして平均のみを使用する場合、どちらが優れているとは言えません。

良い実用的な方法は、エルボー法を使用することです。

別の方法では、クラスター数の関数として説明される分散のパーセンテージを調べます。クラスター数を選択して、別のクラスターを追加してもデータのモデリングが大幅に改善されないようにする必要があります。より正確には、クラスターによって説明される分散のパーセンテージをクラスターの数に対してグラフ化すると、最初のクラスターは多くの情報を追加します (多くの分散を説明します) が、ある時点で限界ゲインが低下し、グラフ。この時点でクラスターの数が選択されるため、「エルボー基準」となります。

ここに画像の説明を入力

最適なクラスター数の選択に関連するその他の適切な代替手段:

于 2013-01-22T01:13:44.347 に答える