6

大きなトレーニングセットでSVMをトレーニングしていて、クラス変数がTrueまたはFalseの場合、トレーニングセットのFalse値の数と比較してTrue値が非常に少ないと、トレーニングモデル/結果に影響しますか?それらは等しくなければなりませんか?トレーニングセットにTrueとFalseの均等な分布がない場合、トレーニングが可能な限り効率的に行われるように、これをどのように処理しますか?

4

2 に答える 2

3

不均衡なデータを使用しても問題ありません。SVM は、可能性の低いインスタンス (たとえば、「True」) に関連する誤分類エラーにより大きなペナルティを割り当てることができるため、望ましくない分類子をもたらす等しいエラーの重みを割り当てるのではなく、すべてを過半数に割り当てます。ただし、バランスの取れたデータを使用すると、より良い結果が得られる可能性があります。それはすべて、実際にはデータに依存します。

よりバランスの取れたデータを取得するために、データを人為的に歪めることができます。この論文をチェックしてみませんか: http://pages.stern.nyu.edu/~fprovost/Papers/skew.PDF .

于 2012-08-01T01:10:04.853 に答える
2

私の経験では、標準の SVM 分類器は不均衡なデータではうまく機能しません。私は C-SVM でそれを経験しましたが、nu-SVM ではさらに悪化しています。不均衡なデータに特に適したモードを提供するP-SVMを見たいと思うかもしれません。

于 2014-02-21T22:00:39.787 に答える