X
2 つのカテゴリ機能と 41 の数値機能を持つデータ フレームがあります。合計X
43 の機能があります。
RandomForest
ここで、カテゴリ特徴を数値レベルに変換して、 Classifierで使用できるようにしたいと思います。
私は次のことを行いました。どこで、カテゴリ機能の場所を示します0
:1
import pandas as pd
X = pd.read_csv("train.csv")
F1 = pd.get_dummies(X.iloc[:, 0])
F2 = pd.get_dummies(X.iloc[:, 1])
次に、これら 2 つのデータ フレームを連結します。
Xnew = pd.concat([F1, F2, X.ix[:, 2:]])
現在、Xnew
63 の機能があります ( F1
18 のF2
機能があり、4 つの機能があり、残りの 41 は からのものですX
)
これは正しいです?同じことを行うより良い方法はありますか?共線性を避けるためにF1
、最初の列を削除する必要がありますか?F2