Vowpal Wabbit はエポック/パスごとにデータを自動的にシャッフルしますか? 作成されたキャッシュ ファイルに、VW のデフォルトのオンライン SGD メソッドのようなオンライン アルゴリズムに必要なシャッフル メタデータが含まれることを願っています。例えば
vw -d train.txt -c --passes 50 -f train.model
そうでない場合は、パスごとにデータを手動でシャッフルするバックアップ スクリプトがあります。
# Create the initial regressor file
vw -d train.txt -f train.model
# For the next 49 passes, shuffle and then update the regressor file
for i in {0..49}
do
<some script: train.txt --> shuffled_data.txt>
vw -d shuffled_data.txt -i train.model -f train.model
done
VW が自動的にシャッフルしない場合、上記のコード ブロックを実行するより効率的な方法はありますか? 残念ながら、VW の wiki はこれに関して不明確です。ありがとう。