7

75% の「真」ラベルと 25% の「偽」ラベルで構成される不均衡なデータセットを使用している場合、libSVM でガンマとコストのパラメーターをどのように設定すればよいですか? データの不均衡が原因で、すべての予測ラベルが「True」に設定されているというエラーが常に発生しています。

問題が libSVM にあるのではなく、私のデータセットにある場合、理論的機械学習の観点からこの不均衡をどのように処理すればよいですか? *私が使用している機能の数は 4 ~ 10 で、250 個のデータ ポイントの小さなセットがあります。

4

3 に答える 3

6

クラスの不均衡は、C とガンマの選択とは何の関係もありません。この問題に対処するには、たとえばパッケージ (に組み込まれている)で利用可能なクラスの重み付けスキームを使用する必要があります。scikit-learnlibsvm

最良のCとの選択はgamma、クロス検証を使用したグリッド検索を使用して実行されます。とCの間の値を選択するのが合理的であるため、ここでは広大な範囲の値を試す必要があります。一方、範囲値のシンプルで優れたヒューリスティックは、すべてのデータポイント間のペアワイズ距離を計算し、この分布のパーセンタイルに従ってガンマを選択することです-考えてみてください各ポイントに分散が等しいガウス分布を配置します。この分布が多くのポイントで重複するように選択すると、非常に「滑らかな」モデルが得られますが、小さな分散を使用するとオーバーフィッティングにつながります。110^15gamma1/gammagamma

于 2013-09-30T09:16:29.197 に答える