machine-learning - 特徴の選択と削減の両方を適用する

Question

機械学習を含む研究をエミュレートしようとしていました。研究者は、分類からガウス分類器を使用する前に、特徴選択と特徴削減の両方を使用しました。

私の質問は次のとおりです。3 つのクラスがあるとします。合計 (たとえば) 10 個の機能から、各クラスの上位 3 つの機能 (たとえば) を選択します。選択された機能は、たとえば次のとおりです。

Class 1: F1 F2 F9
Class 2: F3 F4 F9
Class 3: F1 F5 F10

主成分分析または線形判別分析は両方とも完全なデータセットまたはすべてのクラスが同じ機能を持つ少なくともデータセットで機能するため、そのようなセットで機能削減を実行してからトレーニングを実行するにはどうすればよいですか?

論文へのリンクは次のとおりです。Speaker Dependent Audio Visual Emotion Recognition

以下は論文からの抜粋です。

基準関数として Bhattacharyya 距離を使用する Plus l-Take Away r アルゴリズムを使用して、上位 40 の視覚的特徴が選択されました。次に、PCA と LDA が選択された機能セットに適用され、最終的に単一コンポーネントのガウス分類器が分類に使用されました。

score 2 · Accepted Answer

リンクされた論文では、すべてのクラスに対して単一の機能セットが開発されています。Bhattacharyya 距離は、2 つのガウス分布がどの程度分離可能かを示す有界距離の尺度です。この記事では、Bhattacharyya 距離がどのように使用されるか (クラス間距離の行列の平均?) が具体的に説明されていないようです。ただし、Bhattacharyya ベースのメトリックを取得したら、機能を選択する方法がいくつかあります。空の機能セットから始めて、機能をセットに徐々に追加することができます (新しい機能でクラスがどの程度分離可能であるかに基づいて)。または、すべての機能から始めて、分離性が最も低い機能を徐々に破棄することもできます。Plus l-Take Away r アルゴリズムは、これら 2 つのアプローチを組み合わせたものです。

元のフィーチャのサブセットが選択されると、フィーチャ削減ステップで元のフィーチャの変換によって次元が削減されます。あなたが引用したように、著者は PCA と LDA の両方を使用しました。2 つの重要な違いは、PCA はトレーニングクラスのラベルとは無関係であり、次元を減らすために、保持する分散の量を選択する必要があることです。一方、LDA は (クラス内共分散に対するクラス間共分散の比率を最大化することによって) クラスの分離可能性を最大化しようとし、クラス数より 1 少ない数の特徴を提供します。

ただし、ここで重要な点は、機能の選択と削減の後、同じ機能セットがすべてのクラスに使用されるということです。

machine-learning - 特徴の選択と削減の両方を適用する

1 に答える 1

Related

Reference