期待値最大化アルゴリズムを適用する前に、一連のデータ内で識別されるべきガウス分布の数を決定する方法のアルゴリズムまたはトリックはありますか?
たとえば、上記の 2 次元データのプロットで、期待値の最大化アルゴリズムを適用すると、4 つのガウス分布をデータに当てはめようとすると、次の結果が得られます。
しかし、データ内のガウス分布の数がわからない場合はどうなるでしょうか? この詳細を見つけるために適用できるアルゴリズムやトリックはありますか?
期待値最大化アルゴリズムを適用する前に、一連のデータ内で識別されるべきガウス分布の数を決定する方法のアルゴリズムまたはトリックはありますか?
たとえば、上記の 2 次元データのプロットで、期待値の最大化アルゴリズムを適用すると、4 つのガウス分布をデータに当てはめようとすると、次の結果が得られます。
しかし、データ内のガウス分布の数がわからない場合はどうなるでしょうか? この詳細を見つけるために適用できるアルゴリズムやトリックはありますか?
他の人が実際のクラスター数の決定に関する wiki 記事を既にリンクしているので、これは少し読み直しかもしれませんが、その記事は非常に密集しすぎていることがわかったので、簡潔で直感的な答えを提供したいと思いました。
基本的に、データセット内のクラスターの数について普遍的に「正しい」答えはありません。クラスターが少ないほど、記述の長さは短くなりますが、分散は大きくなり、自明でないすべてのデータセットでは分散は変化しません。各ポイントにガウスがない限り、完全になくなります。これにより、クラスタリングが役に立たなくなります (これは、「バイアスのない学習の無益性」として知られるより一般的な現象の場合です。ターゲットの概念には、目に見えないインスタンスを分類するための合理的な根拠はありません)。
したがって、基本的には、データセットのいくつかの機能を選択して、クラスターの数を最大化する必要があります ( 機能の例については、誘導バイアスに関するwiki記事を参照してください)。
他の悲しいニュースとして、そのようなすべてのケースで、クラスターの数を見つけることはNP 困難であることが知られているため、期待できる最良の方法は、優れたヒューリスティックなアプローチです。
ウィキペディアにこの件に関する記事があります。私はこの件についてあまり詳しくありませんが、クラスターの数を指定する必要のないクラスタリング アルゴリズムでは、代わりにクラスターに関する密度情報またはクラスター間の最小距離が必要であると言われました。