python - Python - 分類の最小分散のビンサイズ

翻译自：https://stackoverflow.com/questions/44846574 2017-06-30T12:32:20.657

132 次

次のように、機能「年齢」を連続変数から、バイナリ分類の年齢範囲のカテゴリ変数に変更したいと思います。

df['Age'] = pd.cut(df['Age'], [0,6,12,16,65,90] ,labels=['0-6','6-12','12-16','16-65','65-90'])

ただし、データを最も効率的に分類できるように、最適な方法で分割したいと考えています。つまり、年齢範囲内のクラスの分散は最小化されますが、オーバーフィッティングは発生しません。

このようにデータを分割するときの分散を最小限に抑えることができるメソッドを持つパッケージはありますか、それとも自分で作成する必要がありますか?

python - Python - 分類の最小分散のビン サイズ