hindi - MOSES を使用したヒンディー語から英語への統計的機械翻訳

Question

MOSES を使用してヒンディー語から英語への翻訳システムを作成する必要があります。約 10000 のヒンディー語の文と対応する英語の翻訳を含む対訳コーパスを取得しました。ベースラインシステムの作成ページに記載されている方法に従いました。しかし、最初の段階で、ヒンディー語のコーパスをトークン化し、実行しようとしたとき

~/mosesdecoder/scripts/tokenizer/tokenizer.perl -l hi < ~/corpus/training/hi-en.hi> ~/corpus/hi-en.tok.hi

、トークナイザーは私に次の出力を与えました：

Tokenizer Version 1.1
Language: hi
Number of threads: 1
WARNING: No known abbreviations for language 'hi', attempting fall-back to English version...

試してみまし'hin'たが、それでも言語を認識しませんでした。翻訳システムの正しい作り方を誰か教えてください。

score 5 · Accepted Answer

Moses はトークン化にヒンディー語をサポートしていません。ファイルtokenizer.perlを使用しnonbreaking_prefix.*ます ( https://github.com/moses-smt/mosesdecoder/blob/master/scripts/tokenizer/tokenizer.perl#L516から) 。

Moses のノンブレークプレフィックスで利用できる言語は次のとおりです。

カリフォルニア州: カタロニア語
cs: チェコ語
de: ドイツ語
el: ギリシャ語
en: 英語
es: スペイン語
fi: フィンランド語
fr: フランス語
hu: ハンガリー語
は: アイスランド語
それ：イタリア語
lv: ラトビア語
nl: オランダ語
pl: ポーランド語
pt: ポルトガル語
ro: ルーマニア語
ru: ロシア語
sk: スロバキア語
sl: スロベニア語
sv: スウェーデン語
ta: タミル語

https://github.com/moses-smt/mosesdecoder/tree/master/scripts/share/nonbreaking_prefixesから

ただし、すべての希望が失われるわけではありません。Moses で機械翻訳モデルをトレーニングする前に、他のトークナイザーでテキストを確実にトークン化できます。「ヒンディー語の Tokenziers」をグーグルで検索してみてください。それらはたくさんあります。

hindi - MOSES を使用したヒンディー語から英語への統計的機械翻訳

1 に答える 1

Related

Reference