2

Apche Spark Mllib Logistic Regression および Linear Regression アルゴリズムを使用しています。ドキュメントに記載されているコード スニペットを使用しています。最新バージョンの Spark 1.5 で LogisticRegressionWithSGD と LinearRegression を使用しているときに発生する問題。

LogisticRegressionwithSGDに使用したパラメーター値は次のとおりです。

Stepsize=0.01
反復回数 = 1000
minBatchFraction = 0.001

この値の混同行列は

27821    0        
2287    0

LogisticRegressionWithLBFGSを使用した同じデータの場合、混同行列は次のようになります。

27541   280  
1249   1038

LogisticRegressionWithSGDの結果については完全に無知です。LogisticRegressionWithSGDで適切な結果が得られない理由を教えてください。

4

1 に答える 1

0

LogisticRegressionWithSGD の場合、より高い精度を達成できるようにパラメーターを変更する必要があります。パラメータの値がデータに適合していないようです。試す

  stepSize = 1.0
  numIterations = 1000
  miniBatchFraction = 1.0

また、LogisticRegressionWithLBFGS の結果を最適化するために、予測しようとする 2 番目のカテゴリでは、多くの誤検知があるようです。結果はデー​​タに大きく依存する可能性があるため、データのバランスがとれているのか、偏っているのかを自問してください。パターンを学ぶのに十分な量と質がありますか? 属性は十分に選択され、正規化されていますか?

于 2015-10-16T08:25:28.920 に答える