2

I'm working on binary classification problem using Apache Mahout. The algorithm I use is OnlineLogisticRegression and the model which I currently have strongly tends to produce predictions which are either 1 or 0 without any middle values.

Please suggest a way to tune or tweak the algorithm to make it produce more intermediate values in predictions.

Thanks in advance!

4

2 に答える 2

6

分類器のテスト誤り率は? ゼロに近い場合、自信があるのは機能であり、バグではありません。

テスト エラー率が高い (または少なくとも低くない) 場合、分類器がトレーニング セットをオーバーフィッティングしている可能性があります。トレーニング エラーとテスト エラーの差を測定します。その場合、レノーが提案したように正則化を増やすと役立つ場合があります。

分類器が過剰適合していない場合は、確率キャリブレーションに問題がある可能性があります。ロジスティック回帰モデル (ロジット リンク関数を使用するなど) は、十分な確率キャリブレーションを生成する必要があります (問題がほぼ線形に分離可能で、ラベルにノイズが多すぎない場合)。このペーパーで説明されているように、プロットを使用して確率のキャリブレーションを確認できます。これが実際にキャリブレーションの問題である場合は、Platt スケーリングまたは等張回帰に基づくカスタム キャリブレーションを実装すると、問題の解決に役立つ場合があります。

于 2013-02-12T11:08:49.293 に答える
3

Mahout AbstractOnlineLogisticRegression docs を読むと、正則化パラメータ ラムダを制御できるようです。ラムダを増やすと、重みが 0 に近づくため、予測がよりヘッジされます。

于 2013-02-12T07:14:30.240 に答える