「最高」とは?
一部の賢い人々が気づいたように:
クラスタリングの有効性は、多くの場合、見る人の目にかかっています
クラスタリングに客観的に「より良い」ものはありません。または、クラスタ分析を行っていません。
結果が分離、シルエットなどの数学的尺度で実際に「優れている」場合でも、ラベルを使用した監視付き評価を使用している場合でも、ユースケースではなく、いくつかの数学的目標に向けて最適化する場合にのみ優れています。
K-means は、与えられた k に対する局所的な最適な二乗和の割り当てを見つけます。(さらに、k を大きくすると、より適切な割り当てが存在します!) DBSCAN (実際には、すべて大文字で綴られています) は、常に、指定された MinPts/Epsilon の組み合わせに対して最適な密度連結コンポーネントを見つけます。それでも、どちらもいくつかの数学的基準に関して最適化するだけです。この基準が要件と一致しない限り、価値はありません。したがって、何が必要かを理解するまで、最善はありません。しかし、必要なものがわかっている場合は、クラスター分析を行う必要はありません。
じゃあ何をすればいいの?
解決しようとしている問題の解決に役立つ場合は、さまざまなアルゴリズムとさまざまなパラメーターを試して、ドメインの知識で出力を分析してください。問題の解決に役立つ場合は、それで問題ありません。問題が解決しない場合は、もう一度やり直してください。
時間が経つにつれて、いくつかの経験を積むことができます。たとえば、平方和がドメインにとって意味がない場合は、k-means を使用しないでください。データに有意な密度がない場合は、DBSCAN などの密度ベースのクラスタリングを使用しないでください。これらのアルゴリズムが失敗するわけではありません。彼らはあなたの問題を解決するのではなく、あなたが興味を持っていない別の問題を解決します。そして、彼らはこの他の問題を解決するのが本当に得意かもしれません...