ここの scikit-learn チュートリアルに従って、Pandas.DataFrame
という名前の列がある場合colors
、すべてのカテゴリ変数 (例: variablecolors
値を持つことができるblue
, red
, ) は、ダミー変数列の数にpurple
置き換えられます, , ?len(colors)
colors#blue
colors#red
colors#purple
Python を学習したばかりなので、疑似コードで自分の考えを書きます。
試行 (疑似コード)
cols_to_process = ['colors']
# Create new columns for dummy variables
// if listings.keyname in cols_to_process:
// unique_values = list of unique values in listings[col]
// listings = listings.join(unique_values, axis=1)
# Populate dummy variable columns
# Remove old columns that have dummy variable columns created