すべてのクラスターの平均のみを考慮することはDBI
、明らかに良い考えではありません。
確かに、クラスタの数を増やすと、k
ペナルティなしで、結果として生じるクラスタリングの DBI の量が常に減少し、DBI
各データ ポイントが独自のクラスタと見なされる場合は極端な場合はゼロになります (各データ ポイントが独自の重心と重複するため)。 .
DBI を使用して 2 つのクラスターが 1 つのクラスターよりも優れているかどうかを知る方法は? では、クラスタが 1 つしかない場合、DBI を計算するにはどうすればよいでしょうか?
DBI
そのため、パフォーマンス メトリックとして平均のみを使用する場合、どちらが優れているとは言えません。
良い実用的な方法は、エルボー法を使用することです。
別の方法では、クラスター数の関数として説明される分散のパーセンテージを調べます。クラスター数を選択して、別のクラスターを追加してもデータのモデリングが大幅に改善されないようにする必要があります。より正確には、クラスターによって説明される分散のパーセンテージをクラスターの数に対してグラフ化すると、最初のクラスターは多くの情報を追加します (多くの分散を説明します) が、ある時点で限界ゲインが低下し、グラフ。この時点でクラスターの数が選択されるため、「エルボー基準」となります。

最適なクラスター数の選択に関連するその他の適切な代替手段: