Python で、次のような size というデータ フレームの列があるとします。
E
G
F
D
F
E...
D から G までの文字は、S から X-Large までのさまざまなサイズを表します。私ができることは、それらを数値で表すことです。
2
4
3
1
3
2...
ただし、これは連続データではないため、今後行う他の分析で問題が発生する可能性があります。したがって、私が持っていた別のアイデアは、これを 4 つの列に分割することでした。ここで、サイズのインスタンスは 1 で、それ以外の場合は 0 です。次のようになります。
D E F G
0 1 0 0
0 0 0 1
0 0 1 0
1 0 0 0
0 0 1 0
0 1 0 0
この種のシナリオに役立つ Python の OneHotEncoder と呼ばれるものについて聞いたことがあります。この問題を解決するためにこれを効果的に使用するにはどうすればよいですか、またはこれについて他にどのような方法がありますか?