1

私は多くのサポート ベクター マシンの本や技術論文を読みましたが、ほとんどのテキスト分類タスクで線形カーネルを選択する際に多くの著者が想定していることです。

彼らは、テキスト分類問題のデータはすでに高次元空間に存在するため、SVM を使用してデータを分類しようとしている間、データを分離するために線形カーネルを選択するだけで十分であると言っています。

この仮定に対する私の理解は次のとおりです。

どのテキスト分類タスクでも、分類タスクで選択される特徴 (多くの場合、ドキュメント内で探している特定の重要な単語) の数は非常に多くなります。高次元空間。

仮定の私の理解は正確ですか?そうでない場合は、誰かがこの仮定に光を当てるようにしてほしい.

どんな助けでも大歓迎です。

4

1 に答える 1

0

私が理解しているように、あなたは正しいです。

  • 各機能はディメンションに対応しています。
  • より高い次元=>より高い分離の可能性。
  • 非線形カーネルは、データをより高い次元に(非線形に)変換するだけで、分離の可能性を高めます。したがって、多くの機能がある場合は必要ありません。

http://www.csc.kth.se/utbildning/kth/kurser/DD2427/bik12/Schedule.phpから、SVMなどに関する講義を読むことをお勧めします。 これは、このテーマで私が知っている最高のリソースです。短くて要点。

于 2012-07-31T15:17:42.723 に答える