2

与えられた ML 問題について、その人が所有している車の特徴があるとします。この情報は、次のいずれかの方法でエンコードできます。

  1. 各車にIDを割り当てます。列「CAR_POSSESSED」を作成し、機能 ID を値として入力します。
  2. 車ごとに列を作り、対象のサンプルがその車を所有しているかどうかに応じて、0 または 1 を付けます。列は「BMW_POSSESSED」、「AUDI_POSSESSED」のようになります。

私の実験では、SVM で試した場合、2 番目の方法は 1番目の方法よりもはるかに 優れたパフォーマンスを示しました。

エンコーディングの方法はモデル学習にどのように影響しますか?エンコーディングの影響が研究されているリソースはありますか? それとも、どこで最もパフォーマンスが良いかを確認するために、ヒットと試行を行う必要がありますか?

4

2 に答える 2

1

第2.1章 カテゴリーの特徴:

http://www.csie.ntu.edu.tw/~cjlin/papers/guide/guide.pdf

「svm Categorical Features」を検索すると、さらに多くの機能が見つかります。

于 2015-04-10T22:40:37.693 に答える