以下のような Pandas DataFrame があり、scikit-learn でトレーニングするために categorical_1 をエンコードしているとします。
data = {'numeric_1':[12.1, 3.2, 5.5, 6.8, 9.9],
'categorical_1':['A', 'B', 'C', 'B', 'B']}
frame = pd.DataFrame(data)
dummy_values = pd.get_dummies(data['categorical_1'])
「categorical_1」の値は A、B、または C であるため、dummy_values に 3 つの列ができます。ただし、categorical_1 は実際には値 A、B、C、D、または E を取ることができるため、値 D または E を表す列はありません。
RIでは、その列を因数分解するときにレベルを指定します-パンダでこれを行う対応する方法はありますか、それとも手動で処理する必要がありますか?
私の考えでは、これは、トレーニングセットで使用される値の外にある列の値を持つテストデータを説明するために必要ですが、機械学習の初心者であるため、おそらくそれは必要ではないので、別の方法を受け入れますこれにアプローチします。