値を取るカテゴリ機能、色があるとします
[「赤」、「青」、「緑」、「オレンジ」]、
それを使用して、ランダム フォレスト内の何かを予測したいと考えています。ワンホット エンコードする場合 (つまり、4 つのダミー変数に変更する場合)、4 つのダミー変数が実際には 1 つの変数であることを sklearn に伝えるにはどうすればよいですか? 具体的には、sklearn がさまざまなノードで使用する機能をランダムに選択する場合、赤、青、緑、オレンジのダミーを一緒に含めるか、それらのいずれも含めないでください。
これを行う方法はないと聞いたことがありますが、数値などとして任意にコーディングせずにカテゴリ変数を処理する方法があるに違いないと思います。