問題タブ [rfe]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - scikit-learn で RFECV を使用すると、使用される機能が増えると分類の精度が低下するのはなぜですか?
Scikit-learn の相互検証による再帰的特徴の除去で使用される特徴の増加に伴い、分類の精度が低下する理由を誰か説明してもらえますか? Scikit-learn のドキュメントで報告されている例: Recursive feature Removal with cross-validationから、7 つの特徴を使用すると最良の分類結果が得られるようです。ただし、17 個の機能を使用すると、精度が 25% 低下します。これはどのように可能ですか?機能の追加により、精度が常に向上することを期待しています。
r - R Caret の rfe [{ のエラー: タスク 1 が失敗しました - "rfe は 184 個の重要度の値を期待していますが、2 個しかありません"]
回帰アプリケーションに Caret の rfe を使用しています。私のデータ ( data.table
) には 176 個の予測子 (49 個の因子予測子を含む) があります。関数を実行すると、次のエラーが発生します。
次に、model.matrix( ~ . - 1, data = as.data.frame(train_model_sell_single_bid))
因子予測子をダミー変数に変換していました。ただし、同様のエラーが発生しました:
Windows 7 (64 ビット)、Caret バージョン 6.0-41 で R バージョン 3.1.1 を使用しています。また、Revolution R Enterprise バージョン 7.3 (64 ビット) もインストールしています。しかし、R バージョン 3.0.1 および Caret バージョン 6.0-24 の Amazon EC2 (c3.8xlarge) Linux インスタンスで同じエラーが再現されました。
使用したデータセット (エラーを再現するため):
https://www.dropbox.com/s/utuk9bpxl2996dy/train_model_sell_single_bid.RData?dl=0 https://www.dropbox.com/s/s9xcgfit3iqjffp/train_model_bid_outcomes_sell_single.RData?dl=0
私のコード:
scikit-learn - sklearnのカテゴリデータの再帰的特徴の除去?
8 つのパラメーター (4 つの連続的な 4 つのカテゴリ) を含むデータセットがあり、Scikit の RFEC クラスに従って機能を削除しようとしています。
これは私が使用している式です:
カテゴリデータもあるので、dmatrics (Patsy) を使用してダミー変数に変更しました。
SVC とともにモデルを改善するために、特徴選択後にデータに対してさまざまな分類モデルを試したいと考えています。
データを変換した後に RFE を実行しましたが、間違っていると思います。
カテゴリ データを変換する前または後に RFECV を実行しますか?
どの文書にも明確な兆候が見つかりません。
matlab - 機能選択 SVM-Recursive 機能除去 (SVM-RFE) で Libsvm を使用すると、精度の結果が機能選択なしよりも悪くなります。なぜですか?
libsvm ライブラリで SVM-RFE を使用して、遺伝子発現データセットを実行しようとしています。私のアルゴリズムは Matlab で書かれています。特徴選択を適用せずに、5 倍の CV で 80++% の分類精度を生成できる特定のデータセット。このデータセットに svm-rfe を適用しようとすると (同じ svm パラメーター設定で 5 倍の CV を使用)、分類結果が悪化し、60++% の分類精度しか達成できません。
これが私のmatlabコーディングです。誰かが私のコードの問題点に光を当てることができれば幸いです。前もって感謝します。
pandas - pandas get_dummies を使用した Sklearn RFE
pandas get_dummies で作成したカテゴリ列がある場合、線形回帰モデルに sklearn RFE を使用する方法を理解しようとしています
データセットがあり、レイアウトは次のとおりです。
私が最初に行うことは、Month をオブジェクトに変換してからカテゴリに変換することです (カテゴリ タイプに直接変換すると、パンダでは機能しませんでした)。
次に、X、y を作成します。
次に、RFE を使用します。
2 つの機能を探す単純な RFE ですが、その結果、月の列の 2 つが 1 としてランク付けされます。技術的には、月の列の 1 つがランク 1 である場合にのみ必要であり、「MonthFac」変数は重要です。モデルを構築する際に、使用する他のトップ ランクの変数は何かを知りたいです。
それとも、演繹的な推論を使用して、selector.ranking_
出力に基づいて使用する他の変数を把握することになっているのでしょうか?
R と比較して、sklearn の学習曲線ははるかに高いようです。
また、パンダ/ sklearnでカテゴリ値を正しく実行していますか? R では、私がしなければならas.factor
なかったのは、BAM がこれらすべてを実行することだけでした。
もう 1 つの質問です。機能の最適な量がわからない場合は、ループ セレクター R^2/R^2 adj/MSE を作成して出力できると思いますが、これらの追加の月の列があるので、基本的に 16 の機能があるため、ループは 16 に移動します。これを行うためのより良い方法はありますか?
r-caret - キャレット内の RFE で ROC メトリックを使用する方法
ref に ROC メトリックを使用するにはどうすればよいですか? 以下でこれを試してみましたが、「精度」が ROC の目的で使用されているという警告が表示されます。
r - Rキャレット:trainとrfeの違い
機能選択が組み込まれていないキャレットmlで利用可能なメソッドがいくつかあるので、私はrfe
.
トレーニング時間とランク付けされた機能リストを除いて、train()
との違いは何ですか? rfe()
できることだけtrain()
ができるのか、その逆なのか。
問題を説明するための私の例を次に示します。
r - タスク 1 のエラーが失敗した原因 - RFE で「引数の列の数が一致しません」?
次のコマンドを使用して、キャレットで再帰的な機能選択を実験しようとしています。
data.x.train
マトリックスには以下が含まれます。
とdata.y.train
:
8 つのレベルが含まれています。
どのような設定が原因になる可能性がありますか:
コマンドを数時間実行した後?
ありがとう