カテゴリ変数が 80% の機械学習分類問題があります。分類に分類器を使用したい場合、1 つのホット エンコーディングを使用する必要がありますか? エンコーディングなしでデータを分類子に渡すことはできますか?
機能選択のために次のことをしようとしています。
私は電車のファイルを読みました:
num_rows_to_read = 10000 train_small = pd.read_csv("../../dataset/train.csv", nrows=num_rows_to_read)
カテゴリ機能のタイプを「カテゴリ」に変更します。
non_categorial_features = ['orig_destination_distance', 'srch_adults_cnt', 'srch_children_cnt', 'srch_rm_cnt', 'cnt'] for categorical_feature in list(train_small.columns): if categorical_feature not in non_categorial_features: train_small[categorical_feature] = train_small[categorical_feature].astype('category')
私は 1 つのホット エンコーディングを使用します。
train_small_with_dummies = pd.get_dummies(train_small, sparse=True)
問題は、強力なマシンを使用しているにもかかわらず、3 番目の部分が頻繁に動かなくなることです。
したがって、1 つのホット エンコーディングがなければ、機能の重要性を判断するために機能を選択することはできません。
おすすめは何ですか?