1

私は多くの論文を読み、サポート ベクター マシンの基本概念を非常に高いレベルで理解しました。「最適化関数」がこの入力ベクトルを評価する方法に基づいて、一連の機能を持つトレーニング入力ベクトルを与えます。これを x、(テキスト分類について話しているとしましょう)、入力ベクトルに関連付けられたテキストと呼びましょう。 x は、事前に定義された 2 つのクラスのいずれかに分類されます。これは、バイナリ分類の場合のみです。

したがって、私の最初の質問は、上記の手順によるものです。すべての論文は、最初に、このトレーニング入力ベクトル x がより高い (おそらく無限の) 次元空間にマッピングされると述べています。では、このマッピングは何を達成し、なぜこれが必要なのでしょうか? 入力ベクトル x に 5 つの特徴があるとします。では、どの「高次元」の x をマッピングするかを誰が決定するのでしょうか?

2 番目の質問は、次の最適化方程式に関するものです。

min 1/2 wi(転置)*wi + C Σi = 1..n ξi

w は、グラフのサポート ベクターからの超平面のマージンと関係があることを理解しています。また、C が何らかのペナルティであることはわかっていますが、それが何に対するペナルティなのかはわかりません。また、この場合の ξi は何を表していますか。

2 番目の質問の簡単な説明をいただければ幸いです。テクニカル ペーパーを読んでも理解できなかったからです。

4

2 に答える 2

1

彼らが高次元空間へのマッピングについて話すとき、カーネルが点を高次元空間にマッピングし、そこで内積を取るのと同じことを達成することを意味します。SVM は基本的に線形分類器ですが、カーネルを使用すると、元のデータ空間とは異なる空間で線形になります。

具体的には、カーネルについて話しましょう

K(x, y) = (xy + 1)^2 = (xy)^2 + 2xy + 1,

ここで、x と y はそれぞれ実数 (1 次元) です。ご了承ください

(x^2, sqrt(2) x, 1) • (y^2, sqrt(2) y, 1) = x^2 y^2 + 2 xy + 1

同じ値を持っています。したがって、K(x, y) = phi(x) • phi(y)、ここで phi(a) = (a^2, sqrt(2), 1) であり、このカーネル (次数 2) は、最初に 1 次元の点をこの 3 次元空間にマッピングしてから線形カーネルを作成した場合と同じです。

一般的なガウス RBF カーネル関数は、点を無限次元のヒルベルト空間にマッピングすることと同じです。

カーネルを選択するときに、マップされる機能空間を決定するのはあなたです。ただし、それを行うときに必ずしも明示的なマッピングについて考える必要はありません。また、データが実際にその高次元空間に明示的に変換されることは決してないことに注意することが重要です。そうすると、無限次元の点を表現するのが難しくなります。:)


ξ_i は「スラック変数」です。それらがなければ、SVM は線形に分離できないトレーニング セットを説明することはできません。これは、ほとんどの現実世界のデータセットにはありません。ある意味での ξ は、マージンの反対側にあるデータ ポイントを正しい側にプッシュするために必要な量です。C は、ξ を増やすのにどれだけの費用がかかるかを決定するパラメーターです (そのため、そこで乗算されます)。

于 2012-05-25T22:29:42.163 に答える
1

1) 高次元空間は、カーネル メカニズムを通じて発生します。ただし、テスト サンプルを評価する場合、高次元空間を明示的に計算する必要はありません。(コンピューター上で無限次元を表すことができないため、明らかにこれに違いありません。) たとえば、動径基底関数カーネルは無限次元空間を意味しますが、この無限次元空間に明示的にマップする必要はありません。K(x_sv,x_test) を計算するだけで済みます。ここで、x_sv はサポート ベクターの 1 つで、x_test はテスト サンプルです。

特定の高次元空間は、一連のサポート ベクターとそれに対応する重みを選択するトレーニング手順とパラメーターによって選択されます。

2)Cは、トレーニング セットを完全に分類できないことによるコストに関連する重みです。最適化方程式は、不完全な分類と低いマージンという 2 つの望ましくないケースの間のトレードオフを示しています。変数 ξi は、トレーニング セットのインスタンス i をどの程度分類できないか、つまりインスタンス i のトレーニング エラーを表します。

SVM に関する Chris Burges のチュートリアル (IMO) を参照してください。

于 2012-05-25T22:31:46.987 に答える