X2 つのカテゴリ機能と 41 の数値機能を持つデータ フレームがあります。合計X43 の機能があります。
RandomForestここで、カテゴリ特徴を数値レベルに変換して、 Classifierで使用できるようにしたいと思います。
私は次のことを行いました。どこで、カテゴリ機能の場所を示します0:1
import pandas as pd
X = pd.read_csv("train.csv")
F1 = pd.get_dummies(X.iloc[:, 0])
F2 = pd.get_dummies(X.iloc[:, 1])
次に、これら 2 つのデータ フレームを連結します。
Xnew = pd.concat([F1, F2, X.ix[:, 2:]])
現在、Xnew63 の機能があります ( F118 のF2機能があり、4 つの機能があり、残りの 41 は からのものですX)
これは正しいです?同じことを行うより良い方法はありますか?共線性を避けるためにF1、最初の列を削除する必要がありますか?F2