VW を使用してこれらのデータをトレーニングしたいと思います。
-1 | 単語1 単語2
1 | 単語1 単語3 単語1
...など
ご覧のとおり、2 番目の例では「word1」が 2 回繰り返されています。
VW のドキュメントによると、VW のデフォルトの動作は、各トークンに「:1」を自動的に追加することです。たとえば、最初の例では次のようになります。
-1 | ワード 1:1 ワード 2:1
私の質問は: 2 番目の例で何をしなければなりませんか?
- オプション #1: 次のように変換します。
1 | ワード1:2 ワード3
- オプション #2: 「そのまま」のままにします。
1 | 単語1 単語3 単語1
(この場合、多少の衝突は発生すると思います)