問題タブ [vowpalwabbit]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
437 参照

classification - エラー訂正トーナメント (ect) Vowpal Wabbit でのマルチクラス分類

私は ECT アルゴリズムについて説明しているこの論文を読もうとしましたが、あまり理解できませんでした。

1 対 1 (oaa) とは異なり、oaa よりも優れたパフォーマンスを発揮することはわかっています。

0 投票する
2 に答える
11267 参照

classification - 非常に不均衡なデータセットで vowpal wabbit を使用してロジスティック回帰を実行する方法

ロジスティック回帰に vowpal wabbit を使用しようとしています。これが正しい構文であるかどうかはわかりません

ここに私の列車データからのスニペットがあります

ここに私のテストデータからのスニペットがあります

しかし、結果を見ると、予測はすべて -1 で、生のスコアはすべて 0 です。私は約 200,000 の例を持っています。そのうち 100 は +1 で、残りは -1 です。この不均衡なデータを処理するために、正の例に 200,000/100 の重みを付け、負の例に 200,000/(200000-100) の重みを付けました。これが起こっているのは、重みを調整しても、私のデータが非常に不均衡であるためですか?

生のスコアファイルで (P(y|x)) の出力を期待していました。しかし、私はすべてゼロを取得します。確率出力が必要なだけです。何が起こっているのか提案はありますか?

0 投票する
1 に答える
976 参照

logistic-regression - vowpal wabbit でのホールドアウトセットの選択方法

ロジスティック回帰に vowpal wabbit を使用しています。vowpal wabbit が、指定されたトレーニング データから検証用のホールド アウト セットを選択することを知りました。このセットはランダムに選ばれますか。100 の +ve の例と 1000 の -ve の例を含む非常に不均衡なデータセットがあります。このトレーニング データが与えられた場合、vowpal wabbit がホールド アウトの例をどのように選択するのか知りたいですか?

+ve の例にさらに重みを割り当てるにはどうすればよいですか

0 投票する
1 に答える
1743 参照

python - Python から Vowpal Wabbit を呼び出す (3.4)

Mac OS X 上の Python 3.4 から Vowpal Wabbit を扱うことに興味があります。

特に、次のものが必要です。

  1. 一連のパラメーターを使用して Python 経由で VW を実行します (各実行は、前回の終了後に開始されます)
  2. VWが通常ターミナルウィンドウに表示するすべてをファイルに書き込みます
  3. *オプション。VW の進捗情報が表示されたターミナル ウィンドウを参照してください

p.1-2については、今書きました

VW はモデルを保存しましたが、学習の進行状況 (ターミナル ウィンドウが開いていないため) も、output.txt ファイルにも何も表示されません (結局、長さが 0 のように見えます)。

ヒントや提案は大歓迎です。

0 投票する
1 に答える
686 参照

machine-learning - vowpal wabbit の --keep および --ignore 機能はどのように使用しますか?

ドキュメントには、これらの機能が存在することが記載されているだけですが、私が見つけることができるサンプル コードはありません。

私は現在、フォームのデータを持っています

したがって、train.vw ファイルに 11 という名前の名前空間が 1 つあります。

私は命令を下す

そしてエラーを取得します

キープなしで正常に動作し、

0 投票する
1 に答える
1068 参照

vowpalwabbit - Vowpal Wabbit での --oaa 2 および --loss_function=logistic の効果

二項分類タスクのために VW でどのパラメータを使用する必要がありますか? たとえば、rcv1_small.datを使用してみましょう。ロジスティック損失関数 (またはヒンジ) を使用する方がよいと考えましたが、 を使用しても意味がありませ--oaa 2。ただし、経験的結果 (4 つの実験すべてで報告された漸進的な検証 0/1 損失) は、最良の組み合わせには--oaa 2ロジスティック損失がない (つまり、デフォルトの二乗損失がある) ことを示しています。

私の主な質問は、 (上記の設定で)とまったく同じ結果が得られないのはなぜ--oaa 2--binaryですか?

私の二次的な質問は次のとおりです。ロジスティック損失を最適化しても0/1損失が改善されないのはなぜですか(デフォルトの二乗損失の最適化と比較して)?これは、この特定のデータセットに固有のものですか?

0 投票する
3 に答える
1659 参照

c++ - Vowpal Wabbit でメモリからデータを読み取りますか?

データをディスクに書き込まずに、Vowpal Wabbit でモデルをトレーニングするためにデータを送信する方法はありますか?

これが私がやろうとしていることです。問題なくメモリに収まるcsv(約2GB)の比較的大きなデータセットがあります。Rでデータフレームにロードし、そのデータフレームのデータをVW形式に変換する機能があります。

モデルをトレーニングするには、まず変換されたデータをファイルに書き込んでから、そのファイルを VW にフィードする必要があります。また、ディスク部分への書き込みには時間がかかりすぎます。特に、さまざまな機能変換を使用してさまざまなモデルを試したいため、データをディスクに複数回書き込む必要があります。

では、各要素が VW 形式のデータの行である文字ベクトルを R で作成できると仮定すると、それをディスクに書き込まずに VW に入力するにはどうすればよいでしょうか?

デーモン モードを使用して、文字ベクトルを localhost 接続に書き込むことを検討しましたが、VW をデーモン モードでトレーニングすることができませんでした。これが可能かどうかさえわかりません。

これを機能させるために、必要に応じて (Rcpp パッケージを介して) c++ を使用したいと考えています。

事前にどうもありがとうございました。

アップデート:

皆様、ご協力ありがとうございました。誰かが興味を持っている場合に備えて、回答で提案されているように、出力を VW にパイプしました。

0 投票する
1 に答える
70 参照

r - (CS)OAA から VW 生スコアを読み取る

VowpalWabbit は、(CS)OAA モデルから生の予測を次のような一連の行として書き込みます。

に読み込むにはどうすればよいRですか?

これが私のコードです:

明らかなバグ/非効率性はありますか? より良い方法はありますか?

PS。このデータ形式はCRSのように見えますが、そうではありません。