3

検索エンジンのクエリ ログ データから特徴を抽出しました。特徴ファイル (Vowpal Wabbit の入力形式による) は 90.5 GB になります。この巨大なサイズの理由は、機能の構築に必要な冗長性です。Vowpal Wabbit は、TB 単位のデータを数時間で処理できると主張しています。それに加えて、VW は RAM をほとんど使用しないハッシュ関数を使用します。しかし、データに対して VW を使用してロジスティック回帰を実行すると、数分以内にすべての RAM が使い果たされ、停止します。これは私たちが使用するコマンドです-

vw -d train_output --power_t 1  --cache_file train.cache -f data.model 
--compressed --loss_function logistic --adaptive --invariant 
--l2 0.8e-8 --invert_hash train.model

train_output は VW をトレーニングする入力ファイルであり、train.model はトレーニング後に取得される予想されるモデルです。

どんな助けでも大歓迎です!

4

1 に答える 1

6

--invert_hashこのオプションは非常にコストがかかることがわかりました。そのオプションなしで実行してみてください。正則化オプションをオンにして--l1、モデル内の係数の数を減らすこともできます。

モデルにはいくつの機能がありますか? 行ごとにいくつの特徴がありますか?

于 2014-03-30T15:25:04.183 に答える