7

ここにプロットされているようなデータ ポイントのグループを想定します (このグラフは私の問題に固有のものではありませんが、適切な例として使用されています)。

散布図を視覚的に調べると、データ ポイントが 2 つの「グループ」を形成しており、明らかにどちらにも属していないランダムなポイントがいくつかあることが明らかです。

次のことができるアルゴリズムを探しています。

  • 2 つ以上の次元のデータ セットから始めます。
  • そのようなグループがいくつ (または存在する場合) 存在するかを事前に知らなくても、データセットからそのようなグループを検出します。
  • グループが検出されたら、新しいサンプル ポイントがいずれかのグループに適合するように思われる場合、グループのモデルに「質問」します。
4

3 に答える 3

5

多くの選択肢がありますが、新しいデータ ポイントが特定の混合に属する確率に関心がある場合は、最尤法またはベイズによって推定されるガウス混合モデリングなどの確率論的アプローチを使用します。

混合モデルの最尤推定は、Matlab で実装されています。

コンポーネントの数が不明であるという要件により、モデルがより複雑になります。支配的な確率論的アプローチは、混合分布に事前にディリクレ過程を配置し、ベイズ法によって推定することです。たとえば、無限ガウス混合モデルに関するこの論文を参照してください。DP混合モデルは、コンポーネントの数と各要素が属するコンポーネントを推測します。これはまさにあなたが望むものです. 別の方法として、コンポーネントの数でモデル選択を実行することもできますが、これは一般的にあまり洗練されていません。

DP 混合モデル モデルの実装は多数ありますが、それほど便利ではない場合があります。たとえば、これはMatlab の実装です。

あなたのグラフは、あなたが R ユーザーであることを示しています。その場合、事前にパッケージ化されたソリューションを探している場合、質問に対する答えは、このクラスター分析のタスク ビューにあります。

于 2010-01-12T22:14:13.457 に答える
3

k-means クラスタリング アルゴリズムに沿ったものを探していると思います。

ほとんどの汎用言語で適切な実装を見つけることができるはずです。

于 2010-01-12T21:01:45.990 に答える
2

クラスタリングアルゴリズムの1つが必要です。それらはすべて2つのグループに分けることができます。

  1. グループ(クラスター)の数を指定します-例では2つのクラスター
  2. アルゴリズムはそれ自体でクラスターの正しい数を推測しようとします

第1タイプのアルゴリズムが必要な場合は、K-Meansが本当に必要です。

2番目のタイプのアルゴリズムが必要な場合は、階層的クラスタリングアルゴリズムの1つが必要になる可能性があります。私はそれらのどれも実装したことがありません。しかし、クラスターの数を指定する必要がないような方法でK-meansを改善する簡単な方法がわかります。

于 2010-01-12T22:39:11.783 に答える