python - scikitのワンホットエンコーディングはどのようにダミーを割り当てますか?

Question

研究論文では、なげなわモデルを使用して分類と特徴選択を実行します。ワンホットエンコーディングを使用してカテゴリデータを処理する準備をしており、最終的なモデルに最終的に選択されたフィーチャを判断するために、元のカテゴリ値にマップされるフィーチャを特定する必要があります。私はしばらくこの質問をグーグルで調べてきましたが、答えが見つかりませんでした。

scikit のワンホットエンコーディングはどのように値を割り当てますか? たとえば、特定の変数のカテゴリ値が {1, 2, 3, 4} であるとします。ワンホットエンコーディングはそれらを時系列でダミーに編成しますか (つまり、1 をドロップし、最初のダミーを値 2 に、2 番目のダミーを値 3 に、3 番目のダミーを値 4 にしますか? それとも、見つかった順序に基づいて割り当てますか?行を下にスキャンするときの異なるカテゴリ値 (たとえば、最初の観察の値は 3 で、2 番目の観察の値は 2 であるため、3 は削除され、最初のダミーは値 2 になります)?

ありがとう！

score 1 · Accepted Answer

ソースをざっと見てみると、それらは整数値の順に並んでいるように見えます。ただし、これは文書化されていないため、これを当てにすることはできません。これは契約の一部ではありません。どの値が最終的にどこに到達するかを知る必要がある場合は、独自のOneHot実装を作成することをお勧めします。難しすぎるべきではないので、新しいバージョンにアップグレードするときなどに信頼できます。

python - scikitのワンホットエンコーディングはどのようにダミーを割り当てますか?

1 に答える 1

Related

Reference