6

Vowpal Wabbit はエポック/パスごとにデータを自動的にシャッフルしますか? 作成されたキャッシュ ファイルに、VW のデフォルトのオンライン SGD メソッドのようなオンライン アルゴリズムに必要なシャッフル メタデータが含まれることを願っています。例えば

vw -d train.txt -c --passes 50 -f train.model

そうでない場合は、パスごとにデータを手動でシャッフルするバックアップ スクリプトがあります。

# Create the initial regressor file
vw -d train.txt -f train.model
# For the next 49 passes, shuffle and then update the regressor file
for i in {0..49}
do
    <some script: train.txt --> shuffled_data.txt>
    vw -d shuffled_data.txt -i train.model -f train.model
done

VW が自動的にシャッフルしない場合、上記のコード ブロックを実行するより効率的な方法はありますか? 残念ながら、VW の wiki はこれに関して不明確です。ありがとう。

4

1 に答える 1

2

いいえ、シャッフルしません。データをシャッフルする価値もないと思います。シャッフルは非常に I/O 集約的です。シャッフルを行わない 2 つのパスよりも異なるシャッフル順序で 2 つのパスを行う方が良いかもしれませんが、収束の観点からは、シャッフルを行わない 10 回のパスと同じくらいコストがかかります。

于 2014-01-06T02:39:51.680 に答える