python - Pandas get_dummies の可能な値のリストを指定します

翻译自：https://stackoverflow.com/questions/18280652 2013-08-16T19:22:20.387

4822 次

以下のような Pandas DataFrame があり、scikit-learn でトレーニングするために categorical_1 をエンコードしているとします。

data = {'numeric_1':[12.1, 3.2, 5.5, 6.8, 9.9], 
        'categorical_1':['A', 'B', 'C', 'B', 'B']}
frame = pd.DataFrame(data)
dummy_values = pd.get_dummies(data['categorical_1'])

「categorical_1」の値は A、B、または C であるため、dummy_values に 3 つの列ができます。ただし、categorical_1 は実際には値 A、B、C、D、または E を取ることができるため、値 D または E を表す列はありません。

RIでは、その列を因数分解するときにレベルを指定します-パンダでこれを行う対応する方法はありますか、それとも手動で処理する必要がありますか?

私の考えでは、これは、トレーニングセットで使用される値の外にある列の値を持つテストデータを説明するために必要ですが、機械学習の初心者であるため、おそらくそれは必要ではないので、別の方法を受け入れますこれにアプローチします。

python - Pandas get_dummies の可能な値のリストを指定します

4 に答える 4

Related

Reference