二項分類タスクのために VW でどのパラメータを使用する必要がありますか? たとえば、rcv1_small.datを使用してみましょう。ロジスティック損失関数 (またはヒンジ) を使用する方がよいと考えましたが、 を使用しても意味がありません--oaa 2
。ただし、経験的結果 (4 つの実験すべてで報告された漸進的な検証 0/1 損失) は、最良の組み合わせには--oaa 2
ロジスティック損失がない (つまり、デフォルトの二乗損失がある) ことを示しています。
cd vowpal_wabbit/test/train-sets
cat rcv1_small.dat | vw --binary
# average loss = 0.0861
cat rcv1_small.dat | vw --binary --loss_function=logistic
# average loss = 0.0909
cat rcv1_small.dat | sed 's/^-1/2/' | vw --oaa 2
# average loss = 0.0857
cat rcv1_small.dat | sed 's/^-1/2/' | vw --oaa 2 --loss_function=logistic
# average loss = 0.0934
私の主な質問は、 (上記の設定で)とまったく同じ結果が得られないのはなぜ--oaa 2
--binary
ですか?
私の二次的な質問は次のとおりです。ロジスティック損失を最適化しても0/1損失が改善されないのはなぜですか(デフォルトの二乗損失の最適化と比較して)?これは、この特定のデータセットに固有のものですか?