1

次のように、機能「年齢」を連続変数から、バイナリ分類の年齢範囲のカテゴリ変数に変更したいと思います。

df['Age'] = pd.cut(df['Age'], [0,6,12,16,65,90] ,labels=['0-6','6-12','12-16','16-65','65-90'])

ただし、データを最も効率的に分類できるように、最適な方法で分割したいと考えています。つまり、年齢範囲内のクラスの分散は最小化されますが、オーバーフィッティングは発生しません。

このようにデータを分割するときの分散を最小限に抑えることができるメソッドを持つパッケージはありますか、それとも自分で作成する必要がありますか?

4

1 に答える 1