linux - モーセのコーパスファイル形式

Question

私はモーセを使って言語モデルを作っています。

私は次のようなグーグル1グラムファイルを持っています：

</S>    95119665584
<S>     95119665584
,       30578667846
.       22077031422
<UNK>   21594821357
the     19401194714
-       16337125274
of      12765289150
and     12522922536

これは、「の」という単語が12,765,289,150回出現したことを意味します。

ここで、このファイルから言語モデルを作成します（「言語モデルの構築」）。

このファイル形式がMosesで機能するかどうかはわかりません。

チュートリアルでは「europarl-v6.en」を使用していますが、ファイル形式を確認するためにWeb上で見つけることができません。

最終編集：

それぞれの文字を単語で表現する必要があるので、「こんにちは」は「地獄」になります。

私が言ったように各単語を表現した後、どの形式を使用する必要がありますか？

それは次のようになります：

o f
o f
o f
a n d
a n d

または元の形式のように：

o f       12765289150
a n d     12522922536

または多分他の形式で？

それでもグーグルn-gramとしてカウントされますか？

私はリンクをたどりました：@MukundKRoyが提案したようにGoogleWeb N-gramコーパスを使用してLMを構築するにはどうすればよいですか？しかし、私の場合（1-gram、2-gram ... my新しいファイルはconstではありません）。

このファイルをSRILMでできるだけ簡単に使用するには、このファイルの形式を教えていただければ幸いです。ありがとう

score 1 · Accepted Answer

SRILMは1-2-3..-グラムの世話をしています、気にしないでください。

私は似たようなことをしました、ここを見てください：

モーセのインストールとトレーニングの実行-スルー

PART II - Build a Model、セクションではBuild Language Model、それはグーグルn-gramsで完璧に動作しています。

それがあなたのために働いたかどうか私に知らせてください。

score 0 · Accepted Answer

CMU-Cambridge Statistical Language Modeling Toolkit言語モデルの構築に使用できます。を参照wfreq2vocabしてくださいtext2wngram。この形式のLMはモーセでうまく機能すると思います。

linux - モーセのコーパスファイル形式

最終編集：

2 に答える 2

Related

Reference