ここにプロットされているようなデータ ポイントのグループを想定します (このグラフは私の問題に固有のものではありませんが、適切な例として使用されています)。
散布図を視覚的に調べると、データ ポイントが 2 つの「グループ」を形成しており、明らかにどちらにも属していないランダムなポイントがいくつかあることが明らかです。
次のことができるアルゴリズムを探しています。
- 2 つ以上の次元のデータ セットから始めます。
- そのようなグループがいくつ (または存在する場合) 存在するかを事前に知らなくても、データセットからそのようなグループを検出します。
- グループが検出されたら、新しいサンプル ポイントがいずれかのグループに適合するように思われる場合、グループのモデルに「質問」します。