2

ダミーのデータフレームを考えてみましょう:

A B C  D …. Z
1 2 as we   2
2 4 qq rr   5 
4 5 tz rc   9

このデータフレームには 25 個の独立変数と 1 つのターゲット変数があり、独立変数は高基数特徴、数値特徴、および低基数特徴の混合物であり、ターゲット変数は数値です。ここで、最初に、ターゲット変数の予測に役立つ変数を選択またはフィルター処理したいと考えています。この目標を達成するための提案やヒントは大歓迎です。私の質問が明確であることを願っています。質問の形式が不明確な場合は、修正の提案を歓迎します。

これまでに何を試しましたか?カテゴリ特徴 wrt ターゲット変数にターゲット平均エンコーディング (平滑平均) を適用しました。次に、変数の重要度を知るためにランダム フォレストを適用しました。そして奇妙なことは、ランダム フォレストが常に 1 つの機能のみを選択していることです。少なくとも 3 ~ 4 つの意味のある変数を期待していました。ニューラル ネットワークを試しましたが、結果は変わりません。これは何が原因でしょうか? アルゴリズムが 1 つの変数のみを使用する場合、それはどういう意味ですか? また、テストの予測はあまり正確ではありません。RMSE は約 2.4 で、ターゲット フィーチャの値は通常 20 ~ 40 の範囲です。これを読んでいただき、ありがとうございます。PS: 私は SKlearn と Python を使用しています。

4

0 に答える 0