pandas.get_dummiesカテゴリ値ごとにダミー変数を出力します。N-1個のダミー変数のみを作成するように依頼する自動化された簡単な方法はありますか? (任意に1つの「ベースライン」変数を取り除くだけです)?
データセットの共直線性を避けるために必要です。
pandas.get_dummiesカテゴリ値ごとにダミー変数を出力します。N-1個のダミー変数のみを作成するように依頼する自動化された簡単な方法はありますか? (任意に1つの「ベースライン」変数を取り除くだけです)?
データセットの共直線性を避けるために必要です。
Pandas バージョン 0.18.0 は、探しているもの、つまりdrop_firstオプションを正確に実装しました。次に例を示します。
In [1]: import pandas as pd
In [2]: pd.__version__
Out[2]: u'0.18.1'
In [3]: s = pd.Series(list('abcbacb'))
In [4]: pd.get_dummies(s, drop_first=True)
Out[4]:
b c
0 0.0 0.0
1 1.0 0.0
2 0.0 1.0
3 1.0 0.0
4 0.0 0.0
5 0.0 1.0
6 1.0 0.0