4

MCS (Multi classifier system) を使用して、限られたデータに対してより良い作業を行うこと、つまりより正確になることを試みています。

現時点では K-means クラスタリングを使用していますが、FCM (Fuzzy c-means) を使用してデータをグループ (クラスター) にクラスター化することを選択する場合があります。データは色など、何でも表すことができます。まず、前処理と正規化の後にデータをクラスター化し、その間に多くの異なるクラスターをいくつか取得します。次に、クラスターをベイズ分類器のデータとして使用します。各クラスターは異なる色を表し、ベイズ分類器がトレーニングされ、クラスターからのデータが個別のベイズ分類器に渡されます。各ベイズ分類器は、1 つの色のみでトレーニングされます。色のスペクトル 3 ~ 10 を青、13 ~ 20 を赤、0 ~ 3 の間のスペクトルを 1.5 まで白とすると、1.5 ~ 3 まで徐々に青に変わり、青から赤まで同じになります。

私が知りたいのは、ベイズ分類器がより強力になるように、どのように、またはどのような集計方法 (それを使用する場合) を適用できるか、およびそれがどのように機能するかです。集計方法はすでに答えを知っているのでしょうか、それとも出力を修正するのは人間の相互作用であり、それらの答えはベイズトレーニングデータに戻されますか? それとも両方の組み合わせ?Bootstrap の集計を見ると、アンサンブル内の各モデルを同じ重みで投票する必要があるため、この特定のインスタンスでは集計方法としてバギングを使用するかどうかはよくわかりません。ただし、ブースティングには、新しいモデルの各インスタンスをトレーニングして、以前のモデルが誤って分類したトレーニング インスタンスを強調することによって、アンサンブルを段階的に構築することが含まれます。新しいインスタンスで段階的に構築する方法がわからないので、これがバギングのより良い代替手段になるかどうかはわかりませんか? そして最後のものは、仮説空間から仮説をサンプリングし、ベイズの法則を使用してそれらを組み合わせることによってベイズ最適分類子を近似しようとするアンサンブル手法であるベイジアンモデル平均化ですが、検索空間から仮説をどのようにサンプリングするかは完全にわかりませんか?

通常、2 つの分類アルゴリズム間でバウンスするために競争的アプローチを使用することを知っています。1 つは「はい」と言い、1 つはおそらく重み付けを適用できると言い、それが正しければ両方の分類子のベストを得ることができますが、維持のために私は競争的アプローチを望んでいません。

別の質問は、これら2つの方法を一緒に使用すると有益であるということです.私が提供した例は非常に原始的であり、その例には当てはまらないかもしれませんが、より複雑なデータでは有益です.

4

1 に答える 1

4

あなたがフォローしている方法についていくつか問題があります:

  1. K-means は、各クラスターに最も近いポイントを配置します。次に、出力データを使用して分類器をトレーニングします。分類子はクラスタリングの暗黙的な分類よりも優れていると思いますが、各クラスターのサンプル数を考慮するだけです。たとえば、クラスタリング後のトレーニング データに typeA(60%)、typeB(20%)、typeC(20%) がある場合、分類器は、分類エラーを少なくするために、あいまいなサンプルをタイプ A に取得することを好みます。
  2. K平均は、オブジェクトから取得する「座標」/「機能」に依存します。異なるタイプのオブジェクトが混在する特徴量を使用すると、K-means のパフォーマンスが低下します。この種の特徴を特徴ベクトルから削除すると、結果が改善される場合があります。
  3. 分類したいオブジェクトを表す「機能」/「座標」は、さまざまな単位で測定される場合があります。クラスタリング エラー関数を介して暗黙的に単位変換を設定しているため、この事実はクラスタリング アルゴリズムに影響を与える可能性があります。クラスターの最終セットは、エラー関数を使用して、(異なるクラスターの初期化で取得された) 複数のクラスター試行で選択されます。したがって、特徴ベクトルの異なる座標に対して暗黙的な比較が行われます (暗黙的な変換係数が導入される可能性があります)。

これら 3 つの点を考慮すると、前処理ステージを追加することで、アルゴリズムの全体的なパフォーマンスが向上する可能性があります。たとえば、コンピューター ビジョン アプリケーションのオブジェクト認識では、画像から得られる情報のほとんどは、画像の境界線からのみ得られます。すべての色情報とテクスチャ情報の一部は使用されません。境界線は、画像を処理する画像から差し引かれ、勾配方向ヒストグラム (HOG) 記述子を取得します。この記述子は、オブジェクトをより適切に分離する「特徴」/「座標」を返すため、分類 (オブジェクト認識) のパフォーマンスが向上します。理論的には、記述子は画像に含まれる情報をスローします。でも、

あなたの場合、同様のアプローチで精度を向上させることをお勧めします。

  1. クラスタリング アルゴリズムに豊富な機能を追加する
  2. この分野の予備知識を利用して、特徴ベクトルに追加および削除する特徴を決定します。
  3. 教師あり学習アルゴリズムを適用できるように、ラベル付きデータを取得する可能性を常に考慮してください。

これが役立つことを願っています...

于 2012-10-10T21:36:35.773 に答える