3

MOSES を使用してヒンディー語から英語への翻訳システムを作成する必要があります。約 10000 のヒンディー語の文と対応する英語の翻訳を含む対訳コーパスを取得しました。ベースライン システムの作成ページに記載されている方法に従いました。しかし、最初の段階で、ヒンディー語のコーパスをトークン化し、実行しようとしたとき

~/mosesdecoder/scripts/tokenizer/tokenizer.perl -l hi < ~/corpus/training/hi-en.hi> ~/corpus/hi-en.tok.hi

、トークナイザーは私に次の出力を与えました:

Tokenizer Version 1.1
Language: hi
Number of threads: 1
WARNING: No known abbreviations for language 'hi', attempting fall-back to English version...

試してみまし'hin'たが、それでも言語を認識しませんでした。翻訳システムの正しい作り方を誰か教えてください。

4

1 に答える 1

5

Moses はトークン化にヒンディー語をサポートしていません。ファイルtokenizer.perlを使用しnonbreaking_prefix.*ます ( https://github.com/moses-smt/mosesdecoder/blob/master/scripts/tokenizer/tokenizer.perl#L516から) 。

Moses のノンブレークプレフィックスで利用できる言語は次のとおりです。

  • カリフォルニア州: カタロニア語
  • cs: チェコ語
  • de: ドイツ語
  • el: ギリシャ語
  • en: 英語
  • es: スペイン語
  • fi: フィンランド語
  • fr: フランス語
  • hu: ハンガリー語
  • は: アイスランド語
  • それ:イタリア語
  • lv: ラトビア語
  • nl: オランダ語
  • pl: ポーランド語
  • pt: ポルトガル語
  • ro: ルーマニア語
  • ru: ロシア語
  • sk: スロバキア語
  • sl: スロベニア語
  • sv: スウェーデン語
  • ta: タミル語

https://github.com/moses-smt/mosesdecoder/tree/master/scripts/share/nonbreaking_prefixesから


ただし、すべての希望が失われるわけではありません。Moses で機械翻訳モデルをトレーニングする前に、他のトークナイザーでテキストを確実にトークン化できます。「ヒンディー語の Tokenziers」をグーグルで検索してみてください。それらはたくさんあります。

于 2014-12-28T22:21:46.250 に答える