私はモーセを使って言語モデルを作っています。
私はこのリンクからの指示に従いました:ベースラインシステム:モーゼス
私は次のようなグーグル1グラムファイルを持っています:
</S> 95119665584
<S> 95119665584
, 30578667846
. 22077031422
<UNK> 21594821357
the 19401194714
- 16337125274
of 12765289150
and 12522922536
これは、「の」という単語が12,765,289,150回出現したことを意味します。
ここで、このファイルから言語モデルを作成します(「言語モデルの構築」)。
このファイル形式がMosesで機能するかどうかはわかりません。
チュートリアルでは「europarl-v6.en」を使用していますが、ファイル形式を確認するためにWeb上で見つけることができません。
最終編集:
それぞれの文字を単語で表現する必要があるので、「こんにちは」は「地獄」になります。
私が言ったように各単語を表現した後、どの形式を使用する必要がありますか?
それは次のようになります:
o f
o f
o f
a n d
a n d
または元の形式のように:
o f 12765289150
a n d 12522922536
または多分他の形式で?
それでもグーグルn-gramとしてカウントされますか?
私はリンクをたどりました:@MukundKRoyが提案したようにGoogleWeb N-gramコーパスを使用してLMを構築するにはどうすればよいですか?しかし、私の場合(1-gram、2-gram ... my新しいファイルはconstではありません)。
このファイルをSRILMでできるだけ簡単に使用するには、このファイルの形式を教えていただければ幸いです。ありがとう