1

クラスタリング方法と同じデータを分布に適合させる方法について質問があります。

2 つの特徴 (feat_A と feat_B) を持つデータセットがあると仮定し、クラスタリング アルゴリズムを使用してデータを最適な数のクラスターに分割すると仮定しましょう...たとえば 3.

私の目標は、各入力データ [feat_Ai,feat_Bi] に、ポイントがクラスター 1 2 3 に属する確率 (または類似のもの) を割り当てることです。

を。クラスタリングによる最初のアプローチ:

3 つのクラスター内のデータをクラスター化し、クラスターの中心からの距離に応じてクラスターに属する確率を各ポイントに割り当てます。

b. 混合モデルを使用した 2 番目のアプローチ:

混合モデルまたは混合分布をデータに当てはめます。データは、期待値最大化 (EM) アルゴリズムを使用して分布に当てはめられます。EM アルゴリズムは、各観測値に関する各成分密度に事後確率を割り当てます。クラスタは、事後確率を最大化するコンポーネントを選択することによって割り当てられます。


私の問題では、データのサブサンプルでクラスターの中心を見つけます(またはアプローチb.が使用されている場合はモデルに適合します)。次に、他の多くのデータに確率を割り当てる必要があります...新しいデータが存在する場合、意味のある割り当てを行うためにどのアプローチを使用するのが良いかを知りたいです。

次の理由から、 kmeanなどのクラスタリング方法を使用します。

  1. 新しいデータが、混合モデルの作成に使用された分布とは異なる分布に由来する場合、割り当てが正しくない可能性があります。

  2. 新しいデータでは、事後確率が変化します。

  3. クラスタリング法は、一種の最適な分離境界を見つけるためにクラスターの分散を最小化します。混合モデルは、データの分散を考慮してモデルを作成します (形成されるクラスターが最適な境界で分離されているかどうかはわかりません)。仕方)。

データに関する詳細情報:

機能は依存していると見なされるべきではありません。Feat_A は身体活動の期間を表します Feat_B は歩数を表します 原則として、活動の期間が長いほど歩数が増えると言えますが、常にそうであるとは限りません。

考えるのを手伝ってください。他にポイントがあれば教えてください..

4

0 に答える 0