machine-learning - What are advantages of Artificial Neural Networks over Support Vector Machines?

Question

ANN (Artificial Neural Networks) and SVM (Support Vector Machines) are two popular strategies for supervised machine learning and classification. It's not often clear which method is better for a particular project, and I'm certain the answer is always "it depends." Often, a combination of both along with Bayesian classification is used.

These questions on Stackoverflow have already been asked regarding ANN vs SVM:

ANN and SVM classification

what the difference among ANN, SVM and KNN in my classification question

Support Vector Machine or Artificial Neural Network for text processing?

In this question, I'd like to know specifically what aspects of an ANN (specifically, a Multilayer Perceptron) might make it desirable to use over an SVM? The reason I ask is because it's easy to answer the opposite question: Support Vector Machines are often superior to ANNs because they avoid two major weaknesses of ANNs:

(1) ANNs often converge on local minima rather than global minima, meaning that they are essentially "missing the big picture" sometimes (or missing the forest for the trees)

(2) ANNs often overfit if training goes on too long, meaning that for any given pattern, an ANN might start to consider the noise as part of the pattern.

SVMs don't suffer from either of these two problems. However, it's not readily apparent that SVMs are meant to be a total replacement for ANNs. So what specific advantage(s) does an ANN have over an SVM that might make it applicable for certain situations? I've listed specific advantages of an SVM over an ANN, now I'd like to see a list of ANN advantages (if any).

score 141 · Accepted Answer

あなたが提供する例から判断すると、ANN とは、SVM と直接競合するため、多層パーセプトロンなどの多層フィードフォワードネットワーク (略して FF ネット) を意味すると思います。

これらのモデルが SVM より優れている特定の利点の 1 つは、サイズが固定されていることです。これらのモデルはパラメトリックモデルですが、SVM は非パラメトリックモデルです。つまり、ANN には、h ₁からh _{nまでのサイズの隠れ層がたくさんあります。}機能の数に加えて、バイアスパラメーターに応じて、モデルが構成されます。対照的に、SVM (少なくともカーネル化されたもの) は、トレーニングセットから選択された一連のサポートベクターで構成され、それぞれに重みがあります。最悪の場合、サポートベクターの数はトレーニングサンプルの数とまったく同じになり (主に小さなトレーニングセットまたは縮退したケースで発生します)、一般にそのモデルサイズは線形にスケーリングされます。自然言語処理では、それぞれが数十万の特徴を持つ数万のサポートベクターを持つ SVM 分類器は前代未聞ではありません。

また、 FF ネットのオンライントレーニングは、オンライン SVM フィッティングと比較して非常に単純であり、予測がかなり高速になります。

EDIT：上記のすべては、カーネル化されたSVMの一般的なケースに関係しています。線形 SVM はパラメトリックであり、確率的勾配降下などの単純なアルゴリズムを使用したオンライン学習を可能にするという点で特殊なケースです。

score 66 · Accepted Answer

サポートベクターマシンに対する人工ニューラルネットワークの明らかな利点の 1 つは、人工ニューラルネットワークには任意の数の出力があるのに対し、サポートベクターマシンには 1 つしかないことです。サポートベクターマシンを使用して n 項分類器を作成する最も直接的な方法は、n 個のサポートベクターマシンを作成し、それぞれを 1 つずつトレーニングすることです。一方、ニューラルネットワークを使用した n-ary 分類器は、一度にトレーニングできます。さらに、サポートベクターマシンは独立したシステムであるのに対し、ニューラルネットワークは 1 つの全体であるため、より理にかなっています。これは、出力が相互に関連している場合に特に役立ちます。

たとえば、手書きの数字を分類することが目的の場合、10 台のサポートベクターマシンで十分です。各サポートベクターマシンは正確に 1 つの数字を認識し、他のすべての数字を認識できません。手書きの各数字は、そのクラス以外の情報を保持することはできないため、人工ニューラルネットワークでこれを解決しようとしても意味がありません。

しかし、最後の食事からの時間、心拍数などの簡単に測定できる生理学的要因の関数として、人のホルモンバランス (いくつかのホルモンについて) をモデル化することが目標であるとします。これらの要因はすべて相互に関連しているため、人工ニューラルネットワーク回帰は、サポートベクターマシン回帰よりも理にかなっています。

score 50 · Accepted Answer

注意すべきことの 1 つは、この 2 つは実際には非常に関連しているということです。線形 SVM は単層 NN (つまりパーセプトロン) と同等であり、多層 NN は SVM で表すことができます。詳細については、こちらを参照してください。

score 21 · Accepted Answer

カーネル SVM を使用する場合は、カーネルを推測する必要があります。ただし、ANN は、幅 (近似精度) と高さ (近似効率) を推測するだけの普遍的な近似器です。最適化問題を正しく設計すれば、オーバーフィットは発生しません (オーバーフィットについては参考文献を参照してください)。また、トレーニング例が検索空間を正しく均一にスキャンするかどうかにも依存します。幅と深さの検出は、整数計画法の主題です。

範囲が再び I=[0,1] の I=[0,1] に有界関数 f(.) と有界普遍近似があるとします。シーケンスのシーケンスが存在するプロパティ

lim sup { |f(x) - U(x,a(k) ) | : x } =0

(x,y)そして、分布 D on で例とテストを描きますIxI。

処方されたサポートのために、あなたがすることは、そのような最高のものを見つけることです.

sum {  ( y(l) - U(x(l),a) )^{2} | : 1<=l<=N } is minimal

これを確率変数としましょうa=aa!、オーバーフィッティングは次のようになります。

平均使用D and D^{N} of ( y - U(x,aa) )^{2}

aaエラーが最小化されるように選択した場合、まれな値のセットに対して完全に適合する理由を説明しましょう。ただし、それらはまれであるため、平均が 0 になることはありません。D の離散近似がありますが、秒を最小化する必要があります。また、サポートの長さが自由であることを覚えておいてください。

score 16 · Accepted Answer

私がここで見逃している1つの答え：多層パーセプトロンは、機能間の関係を見つけることができます。たとえば、コンピュータビジョンでは、生の画像が学習アルゴリズムに提供され、高度な機能が計算される場合に必要です。基本的に、中間レベルは新しい未知の機能を計算できます。

score 13 · Accepted Answer

また、SVM システムは、ラベル付きグラフや文字列のセットなど、非計量空間に直接適用できることも考慮する必要があります。実際、カーネルの正定性要件が満たされていれば、内部カーネル関数は事実上あらゆる種類の入力に適切に一般化できます。一方、一連のラベル付きグラフで ANN を使用できるようにするには、明示的な埋め込み手順を考慮する必要があります。

machine-learning - What are advantages of Artificial Neural Networks over Support Vector Machines?

6 に答える 6

Related

Reference