0

私はモーセを使って言語モデルを作っています。

私はこのリンクからの指示に従いました:ベースラインシステム:モーゼス

私は次のようなグーグル1グラムファイルを持っています:

</S>    95119665584
<S>     95119665584
,       30578667846
.       22077031422
<UNK>   21594821357
the     19401194714
-       16337125274
of      12765289150
and     12522922536

これは、「の」という単語が12,765,289,150回出現したことを意味します。

ここで、このファイルから言語モデルを作成します(「言語モデルの構築」)。

このファイル形式がMosesで機能するかどうかはわかりません。

チュートリアルでは「europarl-v6.en」を使用していますが、ファイル形式を確認するためにWeb上で見つけることができません。

最終編集:

それぞれの文字を単語で表現する必要があるので、「こんにちは」は「地獄」になります。

私が言ったように各単語を表現した後、どの形式を使用する必要がありますか?

それは次のようになります:

o f
o f
o f
a n d
a n d

または元の形式のように:

o f       12765289150
a n d     12522922536

または多分他の形式で?

それでもグーグルn-gramとしてカウントされますか?

私はリンクをたどりました:@MukundKRoyが提案したようにGoogleWeb N-gramコーパスを使用してLMを構築するにはどうすればよいですか?しかし、私の場合(1-gram、2-gram ... my新しいファイルはconstではありません)。

このファイルをSRILMでできるだけ簡単に使用するには、このファイルの形式を教えていただければ幸いです。ありがとう

4

2 に答える 2

1

SRILMは1-2-3..-グラムの世話をしています、気にしないでください。

私は似たようなことをしました、ここを見てください:

モーセのインストールとトレーニングの実行-スルー

PART II - Build a Model、セクションではBuild Language Model、それはグーグルn-gramsで完璧に動作しています。

それがあなたのために働いたかどうか私に知らせてください。

于 2013-01-21T15:08:59.230 に答える
0

CMU-Cambridge Statistical Language Modeling Toolkit言語モデルの構築に使用できます。を参照wfreq2vocabしてくださいtext2wngram。この形式のLMはモーセでうまく機能すると思います。

于 2013-01-17T03:42:56.950 に答える