svm - SVMでデータの不均衡をどのように処理しますか？

Question

大きなトレーニングセットでSVMをトレーニングしていて、クラス変数がTrueまたはFalseの場合、トレーニングセットのFalse値の数と比較してTrue値が非常に少ないと、トレーニングモデル/結果に影響しますか？それらは等しくなければなりませんか？トレーニングセットにTrueとFalseの均等な分布がない場合、トレーニングが可能な限り効率的に行われるように、これをどのように処理しますか？

score 3 · Accepted Answer

不均衡なデータを使用しても問題ありません。SVM は、可能性の低いインスタンス (たとえば、「True」) に関連する誤分類エラーにより大きなペナルティを割り当てることができるため、望ましくない分類子をもたらす等しいエラーの重みを割り当てるのではなく、すべてを過半数に割り当てます。ただし、バランスの取れたデータを使用すると、より良い結果が得られる可能性があります。それはすべて、実際にはデータに依存します。

よりバランスの取れたデータを取得するために、データを人為的に歪めることができます。この論文をチェックしてみませんか: http://pages.stern.nyu.edu/~fprovost/Papers/skew.PDF .

score 2 · Accepted Answer

私の経験では、標準の SVM 分類器は不均衡なデータではうまく機能しません。私は C-SVM でそれを経験しましたが、nu-SVM ではさらに悪化しています。不均衡なデータに特に適したモードを提供するP-SVMを見たいと思うかもしれません。

svm - SVMでデータの不均衡をどのように処理しますか？

2 に答える 2

Related

Reference