MOSES を使用してヒンディー語から英語への翻訳システムを作成する必要があります。約 10000 のヒンディー語の文と対応する英語の翻訳を含む対訳コーパスを取得しました。ベースライン システムの作成ページに記載されている方法に従いました。しかし、最初の段階で、ヒンディー語のコーパスをトークン化し、実行しようとしたとき
~/mosesdecoder/scripts/tokenizer/tokenizer.perl -l hi < ~/corpus/training/hi-en.hi> ~/corpus/hi-en.tok.hi
、トークナイザーは私に次の出力を与えました:
Tokenizer Version 1.1
Language: hi
Number of threads: 1
WARNING: No known abbreviations for language 'hi', attempting fall-back to English version...
試してみまし'hin'
たが、それでも言語を認識しませんでした。翻訳システムの正しい作り方を誰か教えてください。