machine-learning - SVM (または他の ML モデル) の予測精度は、特徴のエンコード方法にどの程度依存しますか?

Question

与えられた ML 問題について、その人が所有している車の特徴があるとします。この情報は、次のいずれかの方法でエンコードできます。

各車にIDを割り当てます。列「CAR_POSSESSED」を作成し、機能 ID を値として入力します。
車ごとに列を作り、対象のサンプルがその車を所有しているかどうかに応じて、0 または 1 を付けます。列は「BMW_POSSESSED」、「AUDI_POSSESSED」のようになります。

私の実験では、SVM で試した場合、2 番目の方法は 1番目の方法よりもはるかに 優れたパフォーマンスを示しました。

エンコーディングの方法はモデル学習にどのように影響しますか?エンコーディングの影響が研究されているリソースはありますか? それとも、どこで最もパフォーマンスが良いかを確認するために、ヒットと試行を行う必要がありますか?

score 1 · Accepted Answer

第2.1章カテゴリーの特徴:

「svm Categorical Features」を検索すると、さらに多くの機能が見つかります。

2 に答える 2