0

私は2つの集団を区別しようとしています。各母集団はNxM行列であり、Nは2つの間に固定され、Mは長さが可変です(N =各実行の列固有の属性、M =実行番号)。2つを区別するためにPCAとK-meansを見てきましたが、ベストプラクティスに興味がありました。

私の知る限り、K-means法では、既知のバイモーダル母集団を区別できるようにクラスターを選択する初期の「キャリブレーション」はありません。距離を最小化し、データを任意の数の母集団に割り当てるだけです。クラスタリングアルゴリズムに、2つの母集団が分離されている最適なものが必要であることを伝えたいと思います。その後、将来のデータセットで最初のクラスタリングから得た近似を使用できます。ヘルプ、サンプルコード、または読み物をいただければ幸いです。

-R

4

2 に答える 2

0

K-means と PCA は通常、教師なし学習の問題、つまり単一のデータ バッチがあり、それをより簡単に説明する方法を見つけたい場合に使用されます。原則として、データに対して K-means (K=2) を実行し、2 つのクラスのデータがこのアルゴリズムによって検出されたデータ クラスターとどの程度一致するかを評価できます (注: 複数の開始が必要になる場合があります)。 .

教師あり学習の問題があるように思えます: 既に 2 つのクラスに分割されているトレーニング データ セットがあります。この場合、k-nearest neighbors (@amas で言及) は、おそらく k-means に最も似たアプローチです。ただし、サポート ベクター マシンも魅力的なアプローチです。

Trevor Hastie (著者)、Robert Tibshirani (著者)、Jerome Friedman (著者)による The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition (統計のスプリンガー シリーズ)をよく参照します。

于 2012-07-31T03:33:23.853 に答える
0

それは本当にデータに依存します。ただし、K-means は極小値でスタックするため、使用したい場合は、さまざまなランダムな開始点から実行してみてください。PCA も有用かもしれませんが、他のスペクトル クラスタリング方法と同様に、クラスタリング手順をあまり制御できません。複数のランダムな開始点を持つ k-means を使用してデータをクラスター化し、それがどのように機能するかをお勧めします。その後、K-NN を使用して新しいサンプルごとに予測および学習できます (ケースに役立つかどうかはわかりません)。 .

予測のために遅延学習者K-NNを確認します。

于 2012-07-31T00:05:41.163 に答える