問題タブ [variable-selection]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 数値、高基数、低基数の特徴の混合を含む変数選択
ダミーのデータフレームを考えてみましょう:
このデータフレームには 25 個の独立変数と 1 つのターゲット変数があり、独立変数は高基数特徴、数値特徴、および低基数特徴の混合物であり、ターゲット変数は数値です。ここで、最初に、ターゲット変数の予測に役立つ変数を選択またはフィルター処理したいと考えています。この目標を達成するための提案やヒントは大歓迎です。私の質問が明確であることを願っています。質問の形式が不明確な場合は、修正の提案を歓迎します。
これまでに何を試しましたか?カテゴリ特徴 wrt ターゲット変数にターゲット平均エンコーディング (平滑平均) を適用しました。次に、変数の重要度を知るためにランダム フォレストを適用しました。そして奇妙なことは、ランダム フォレストが常に 1 つの機能のみを選択していることです。少なくとも 3 ~ 4 つの意味のある変数を期待していました。ニューラル ネットワークを試しましたが、結果は変わりません。これは何が原因でしょうか? アルゴリズムが 1 つの変数のみを使用する場合、それはどういう意味ですか? また、テストの予測はあまり正確ではありません。RMSE は約 2.4 で、ターゲット フィーチャの値は通常 20 ~ 40 の範囲です。これを読んでいただき、ありがとうございます。PS: 私は SKlearn と Python を使用しています。