私は分類問題に取り組んでいます。トレーニング データには、ダミー変数に変換したいいくつかのカテゴリ変数があります。これは、パンダで簡単に実行できます。
問題は、テスト データに、トレーニング データには存在しないレベルが含まれている場合はどうなるかということです。テスト データを、トレーニング データと同じスキーマを持つ 1-hotcoded データに変換するにはどうすればよいですか?
例えば:
列車データ
id attribute class
-------------------
1 'a' 'good'
2 'b' 'bad'
3 'c' 'good'
4 'd' 'bad'
1-hot エンコードされた列車データ
id dummy_attr_a dummy_attr_b dummy_attr_c dummy_attr_d class
-----------------------------------------------------------------
1 1 0 0 0 'good'
2 0 1 0 0 'bad'
3 0 0 1 0 'good'
4 0 0 0 1 'bad'
テストデータ
id attribute class
-------------------
1 'a' 'good'
2 'e' 'bad'
問題は、これをダミー変数に直接変換できないことです。これは、2 つの属性dummy_attr_a
とdummy_attr_e
(トレーニング データには存在しない) しか作成しないためです。