5

私は Vowpal Wabbit を試しており、トレーニングとテストに必要なファイル形式を見つけようとしています。https://github.com/JohnLangford/vowpal_wabbit/wiki/Tutorialのチュートリアルに従っていますが、トレーニング データの形式は次のとおりです。

0 | price:.23 sqft:.25 age:.05 2006
1 2 'second_house | price:.18 sqft:.15 age:.35 1976
0 1 0.5 'third_house | price:.53 sqft:.32 age:.87 1924

テストデータについては、ラベルや出力はありませんが、特徴だけがあります。それを書き出すにはどうすればよいでしょうか。私は次のような機能を含めてみました:

price:.23 sqft:.25 age:.05 2006
price:.18 sqft:.15 age:.35 1976
price:.53 sqft:.32 age:.87 1924

ただし、適切な形式ではないため、例外があります。私も次のことを試しましたが、すべて結果として0だけが得られました。

| price:.23 sqft:.25 age:.05 2006
| price:.18 sqft:.15 age:.35 1976
| price:.53 sqft:.32 age:.87 1924

0 0 0 | price:.23 sqft:.25 age:.05 2006
0 0 0 | price:.18 sqft:.15 age:.35 1976
0 0 0 | price:.53 sqft:.32 age:.87 1924

機能だけを知っている、私が目指すべきフォーマットは誰ですか? 助けてくれてありがとう。

4

1 に答える 1

6

バー記号 (|) も予測用の形式である必要があります。

| price:.23 sqft:.25 age:.05 2006
| price:.18 sqft:.15 age:.35 1976
| price:.53 sqft:.32 age:.87 1924

もちろん、正しいラベルを含めないと、vw はテスト損失を計算できません。予測を取得するには、 を使用しますvw -d test_set.vw -t -p predictions.txt。チュートリアルのトレーニング セット (3 つの例のみ) は小さすぎて、適切なモデルをトレーニングできません。

于 2014-11-15T08:36:37.710 に答える