与えられた ML 問題について、その人が所有している車の特徴があるとします。この情報は、次のいずれかの方法でエンコードできます。
- 各車にIDを割り当てます。列「CAR_POSSESSED」を作成し、機能 ID を値として入力します。
- 車ごとに列を作り、対象のサンプルがその車を所有しているかどうかに応じて、0 または 1 を付けます。列は「BMW_POSSESSED」、「AUDI_POSSESSED」のようになります。
私の実験では、SVM で試した場合、2 番目の方法は 1番目の方法よりもはるかに 優れたパフォーマンスを示しました。
エンコーディングの方法はモデル学習にどのように影響しますか?エンコーディングの影響が研究されているリソースはありますか? それとも、どこで最もパフォーマンスが良いかを確認するために、ヒットと試行を行う必要がありますか?