1

SVM に関するいくつかの基本的な概念的なクエリがあります。これについて誰かが私を導くことができれば、それは素晴らしいことです。しばらくの間、本や講義を勉強していますが、これらの質問に正しく答えることができませんでした

  1. m 個の特徴的なデータ ポイントがあるとします (m > 2)。データ ポイントが線形分離可能かどうかはどうすればわかりますか? 私が正しく理解していれば、線形に分離可能なデータポイント - 次元を増やす必要がないため、超平面を見つけるための特別なカーネルは必要ありません。

  2. たとえば、データが線形分離可能かどうかはわかりません。ラグランジュ乗数で 1 回は緩みあり、もう 1 回は緩みなしで、線形カーネルを使用して超平面を取得しようとします。これら 2 つの超平面のトレーニング データとテスト データのエラー率にどのような違いが見られるでしょうか。私の理解が正しければ、データが線形に分離できず、スラックネスを使用していない場合、最適な平面は存在しません。その場合、svm アルゴリズムは実行ごとに異なる超平面を提供する必要があります。ここで、たるみを導入すると、実行ごとに常に同じ超平面を取得する必要がありますか? また、超平面のラグランジュ乗数から、データが線形分離可能かどうかを正確に知るにはどうすればよいでしょうか。

  3. ここで、2 から言うと、データが m 次元で線形分離可能ではないことがどういうわけかわかりました。そこで、次元を上げて、より高い次元で分離できるかどうかを確認してみます。どのくらい高くする必要があるかをどうやって知ることができますか? 計算がその空間に入らないことは知っていますが、2 から 3 に最適なカーネルを見つける方法はありますか (つまり、線形に分離する超平面を見つけたい)。

  4. 特徴の次元が 60 にもなることがある Matlab で超平面とデータ ポイントを視覚化する最良の方法は何ですか?超平面は 100 次元を超えています (つまり、数百のデータ ポイントとガウス カーネルを使用すると、特徴ベクトルが変化します) > 100 次元)。

誰かがこれらの疑問を解消してくれたら本当にありがたいです よろしく

4

1 に答える 1

1

あなたの質問 (1)、(2)、(3) に焦点を当ててみます。実際には、最も重要な関心事は、問題が線形分離可能になるかどうかではなく、分類器が目に見えないデータに対してどれだけうまく機能するか (つまり、どれだけうまく分類できるか) です。データが線形分離可能な優れたカーネルを見つけたいと思われますが、常にこれを行うことができます (各トレーニング ポイントに非常に狭いガウス RBF を配置することを検討してください)。 . そうは言っても:

  • 問題が線形に分離できず、スラックを使用していない場合、最適化は失敗します。どのように失敗するかは、実装と特定の最適化アルゴリズムに依存します。収束しませんか?下降方向を見つけられませんか? それは数学的困難に遭遇しますか?たるみのあるケースを判断したい場合でも、数値的な困難に遭遇する可能性があり、それだけで線形分離可能性のアルゴリズムが信頼できなくなります
  • どのくらい高くする必要がありますか?それは基本的な質問です。これはデータ表現の問題と呼ばれます。単純な解決策のために、人々はホールドアウトデータを使用し(人々はホールドアウトデータの優れたパフォーマンスを気にする線形分離性を気にしません)、パラメーター検索を行います(たとえば、RBFカーネルは線形カーネルよりも厳密に表現力があります)正しいガンマ。したがって、問題はデータの適切なガンマを見つけることになります。たとえば、この論文を参照してください: http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.141.880
  • ラグランジアン乗数の値と線形分離可能性の間に自明な関係があるとは思いません。値が C の高アルファを試すことはできますが、多くを語れるかどうかはわかりません。
于 2013-04-02T15:33:29.673 に答える