問題タブ [feature-selection]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R で FSelector を使用してデータセットを削減する
私は R を初めて使用し、所有しているデータセットで特徴選択を実行するために使用したいと考えています。FSelector パッケージを見つけました。説明書を見ましたが、ちょっと疑問です。
この例では、Relief メソッドを使用して各変数の重要度を計算します。最後の行は、"class = feature1 + feature2 + ... +featureN" という式を作成します。選択した機能のサブセット (char 配列) が与えられた場合、これらの変数 (つまり、2 列の行列) のみを含む新しいデータセットを虹彩から作成するにはどうすればよいでしょうか?
attributes - 機能の選択/属性の選択 - 全体的に優れたパフォーマー
大規模なデータ マイニング ベンチマーク調査のコンテキストで、9 つのデータ セットで 15 のアルゴリズムを比較し、全体で 135 のアルゴリズム/データセットの組み合わせにつながります。この研究はWEKAを使用して行われます。
私の最後の分析は、機能選択の影響に関するものです。完璧な特徴選択アルゴリズムなどというものは存在しないことは承知していますが、最適な選択は、展開するアルゴリズムとそれが適用されるデータ セットの両方に依存します。
組み合わせごとに最適な特徴選択アルゴリズムを見つけるには問題が大きすぎますが、一般的に良いパフォーマンスを示すと考えられるもの、いわば「オールラウンダー」を探しています。これまでのところ、CFS (相関ベースの特徴選択)、ReliefFおよび一貫性ベースのサブセット評価( Hall / Holmes 2002) の推奨事項が一般的に良い選択であることがわかりました。相関係数など) は静かに有効であることが証明されました (Guyon / Ellissef 2003)。
どの方法を使用するか、または実際にどの方法を使用するかを示す他の研究の良いベンチマーク研究はありますか?
r - データスペースが少ないため、R のカイ 2 乗のコード
これを使用して、999 の属性を印刷していますが、もう一度使用しています。記憶力が低いこともあり、データを収集する必要があります
r - Rでカイ二乗を使用してデータを分割する方法(私は6631の属性を持っています)
だから私は使う
これにより、999個の属性の結果が得られます
データを分割してすべての属性を取得するにはどうすればよいですか。32 ビット OS を使用しているため、一度に属性を取得することはできません。
algorithm - ノイズの多い冗長な機能を削除する
ビデオ シーケンスに対する顔マーカーの平均値と標準偏差に基づいて、ビデオ シーケンスから特徴を抽出しました。これらのマーカーに基づいて、4 つの異なるクラスに分類する必要があります。
全体で、約 260 の機能の機能セットがあります。セット内でノイズが多く冗長な機能を特定するにはどうすればよいですか。私はいくつかの研究論文でそれについて読みました. それらのいくつかは私が非常に適切であることがわかった plus l take away r アルゴリズムを使用していました. 自分の機能の良し悪しを評価するにはどうすればよいですか? そのために一般的に使用される基準は何ですか?
私は数日間多くのことを調査しましたが、明確で有用なものは何も見つかりませんでした. 助けてくれてありがとう、ありがとう。
statistics - 機能の選択と交差検証
回帰モデルをトレーニングしたいので、ランダム フォレスト モデルを使用します。ただし、データセットに非常に多くの機能があるため、機能の選択も行う必要があり、すべての機能を使用すると過剰適合するのではないかと心配しています。私のモデルのパフォーマンスを評価するために、私は 5 倍の交差検証も実行します。これらの次の 2 つのアプローチに関する私の質問は正しく、なぜですか?
1- データを 2 つの半分に分割し、前半で機能選択を行い、これらの選択した機能を使用して、残りの半分で 5 倍交差検証 (CV) を実行します (この場合、5 つの CV は選択した同じ機能をまったく使用します)。 )。
2- 次の手順を実行します。
1- データをトレーニング用に 4/5 に分割し、テスト用に 1/5 に分割します 2- このトレーニング データ (完全なデータの 4/5) を 2 つの半分に分割します: a-) 前半でモデルをトレーニングし、使用します特徴選択を行うためのトレーニング済みモデル。b-) トレーニング データセットの後半でモデルをトレーニングするために、最初の部分から選択した機能を使用します (これが最終的なトレーニング済みモデルになります)。3- データの残りの 1/5 でモデルのパフォーマンスをテストします (これはトレーニング フェーズでは使用されません)。トレーニング用に /5、テスト用に 1/5
私の唯一の懸念は、2 番目の手順で 5 つのモデルが作成され、最終モデルの機能がこれら 5 つのモデルの上位機能の結合になることです。特に最終モデルは 5 倍の各モデルとは異なる機能を持っているため、最終モデルの最終的なパフォーマンス (5 CV の各モデルの選択された機能の結合であるため)