14

「機能選択/抽出/重み」の意味と、それらの違いについて少し混乱しています。文献を読んでいると、この用語が非常に大ざっぱに使われていることに気づき、途方に暮れることがあります。私の主な関心事は...

  1. 機能の頻度、機能の存在について人々が話すとき、それは機能の選択ですか?

  2. 人々が情報利得、最大エントロピーなどのアルゴリズムについて話すとき、それはまだ機能選択です。

  3. 例として分類子にドキュメント内の単語の位置を記録するように要求する機能セットを使用して、分類子をトレーニングした場合でも、この機能選択を呼び出すでしょうか?

ありがとうラフル・ディゲ

4

3 に答える 3

18

ラフル-

これらはすべて良い答えです。私が言及したいのは、選択と抽出の根本的な違いは、データの扱い方に関係しているということです。

特徴抽出方法は変換可能です。つまり、データに変換を適用して、より低い次元の新しい特徴空間に投影します。PCA や SVD がその例です。

特徴選択法は、いくつかの基準に基づいて元のセットから特徴を選択します。情報ゲイン、相関、および相互情報は、重要でないまたは冗長な特徴を除外するために使用される単なる基準です。埋め込みメソッドまたはラッパー メソッドは、特殊な分類子を使用して、特徴の選択とデータセットの分類を同時に行うことができます。

問題空間の非常に優れた概要がここに示されています。

幸運を!

于 2010-12-17T18:03:36.187 に答える
8

特徴抽出: D 次元ベクトルを d 次元ベクトル (d < D) に (線形または非線形) 射影することにより、次元を削減します。例:主成分分析

特徴選択: 元の変数のサブセットを選択して次元を減らします。例: 前方または後方の特徴選択

于 2010-02-18T23:28:46.163 に答える
6

特徴選択は、さらに処理するためにセットから「興味深い」特徴を選択するプロセスです。

機能の頻度は、機能が表示される頻度です。

情報ゲイン、最大エントロピーなどは、特徴頻度を使用する重み付け方法であり、これにより、特徴選択を実行できます。

次のように考えてください。

コーパスを解析し、用語/文書マトリックスを作成します。このマトリックスは、用語の数と、用語がどのドキュメントに表示されるか (単純な頻度) から始まります。

その行列をより意味のあるものにするために、頻度を含むいくつかの関数に基づいて用語を重み付けします (用語頻度-逆文書頻度、情報利得、最大エントロピーなど)。このマトリックスには、マトリックス内の他の用語に関連する各用語の重みまたは重要性が含まれています。

それができたら、特徴選択を使用して最も重要な用語のみを保持し (分類や分類などを行っている場合)、さらに分析を実行できます。

于 2010-01-29T17:38:53.327 に答える