0

私は分類問題に取り組んでいます。トレーニング データには、ダミー変数に変換したいいくつかのカテゴリ変数があります。これは、パンダで簡単に実行できます。

問題は、テスト データに、トレーニング データには存在しないレベルが含まれている場合はどうなるかということです。テスト データを、トレーニング データと同じスキーマを持つ 1-hotcoded データに変換するにはどうすればよいですか?

例えば:

列車データ

id attribute  class
-------------------
1   'a'       'good'
2   'b'       'bad' 
3   'c'       'good'
4   'd'       'bad'

1-hot エンコードされた列車データ

id  dummy_attr_a  dummy_attr_b  dummy_attr_c  dummy_attr_d  class
-----------------------------------------------------------------
1        1              0            0             0        'good'      
2        0              1            0             0        'bad'
3        0              0            1             0        'good'
4        0              0            0             1        'bad'

テストデータ

id attribute  class
-------------------
1   'a'       'good'
2   'e'       'bad'

問題は、これをダミー変数に直接変換できないことです。これは、2 つの属性dummy_attr_adummy_attr_e(トレーニング データには存在しない) しか作成しないためです。

4

0 に答える 0