検索エンジンのクエリ ログ データから特徴を抽出しました。特徴ファイル (Vowpal Wabbit の入力形式による) は 90.5 GB になります。この巨大なサイズの理由は、機能の構築に必要な冗長性です。Vowpal Wabbit は、TB 単位のデータを数時間で処理できると主張しています。それに加えて、VW は RAM をほとんど使用しないハッシュ関数を使用します。しかし、データに対して VW を使用してロジスティック回帰を実行すると、数分以内にすべての RAM が使い果たされ、停止します。これは私たちが使用するコマンドです-
vw -d train_output --power_t 1 --cache_file train.cache -f data.model
--compressed --loss_function logistic --adaptive --invariant
--l2 0.8e-8 --invert_hash train.model
train_output は VW をトレーニングする入力ファイルであり、train.model はトレーニング後に取得される予想されるモデルです。
どんな助けでも大歓迎です!