2

ロジスティック回帰に vowpal wabbit を使用しています。vowpal wabbit が、指定されたトレーニング データから検証用のホールド アウト セットを選択することを知りました。このセットはランダムに選ばれますか。100 の +ve の例と 1000 の -ve の例を含む非常に不均衡なデータセットがあります。このトレーニング データが与えられた場合、vowpal wabbit がホールド アウトの例をどのように選択するのか知りたいですか?

+ve の例にさらに重みを割り当てるにはどうすればよいですか

4

1 に答える 1

5

デフォルトでは、10 番目の例がホールドアウトに使用されます ( で変更できます。 https://github.com/JohnLangford/vowpal_wabbit/wiki/Command-line-arguments#holdout-options--holdout_periodを参照してください)。これは、ホールドアウト評価をオンにしてトレーニングされたモデルが、トレーニング データの 90% でのみトレーニングされることを意味します。これにより、精度がわずかに低下する可能性があります。一方で、(デフォルトでは 3 パスに設定されています)を使用できるため、トレーニング パスが多すぎることによるオーバートレーニングのリスクを軽減しやすくなります。複数のパスが使用されている場合にのみ、デフォルトでホールドアウト評価がオンになっていることに注意してください (それ以外の場合、VW は漸進的な検証損失を使用します)。--early_terminate

2 番目の質問については、正の例に重要度を追加できます。デフォルトの重要度は 1 です。https://github.com/JohnLangford/vowpal_wabbit/wiki/Input-formatを参照してください。

于 2014-07-09T16:09:52.287 に答える