0

を使用してTextClassificationEngineいます。https://docs.prediction.io/demo/textclassification/の例では、テキスト分類に 2 つのアルゴリズム (単純ベイズとロジスティック回帰) があります。Naive Bayes アルゴリズムは正常に動作しますが、Logistic Regression を使用するとエラーが発生します。

{
  "id": "default",
  "description": "Default settings",
  "engineFactory": "org.template.textclassification.TextClassificationEngine",
  "datasource": {
    "params": {
      "appName": "Logistic"
    }
  },
  "preparator": {
    "params": {
      "nGram": 2
    }
  },
  "algorithms": [
    {
      "name": "regParam",
      "params": {
        "regParam":2,5
      }
    }
  ]
} 

上記のコードはサイトで提供されていますが、regParam配列が原因でエラーが発生しています。ロジスティック回帰の最終的な結果は何regParamですか?engine.jsonengine.json

4

1 に答える 1

1

これはドキュメントの間違いです。プルを送信して修正します。

regParam は double を期待しているので、次のようなものです "regParam":0.1

具体的には、このパラメーターは (Spark ML で) L2 正則化に使用されます。これにより、モデルが複雑すぎるというペナルティが課せられ、[モデルが適切に一般化されない場合] オーバーフィッティングの可能性が減少します。

使用する正確な値は経験的な問題です。値が気になる場合は、保持された検証セット (または k 倍) を使用して regParam の値の空間を検索し、勝者を決定することをお勧めします。

于 2015-09-28T15:51:44.353 に答える