ベースラインの MT システムを作ろうとしていました。仕組みを確認するためだけに、ソース (S) とターゲット (T) の言語コーパスをわずか 2000 文で作成しました。最初のステップは、機械翻訳 (MT) システム用のデータを準備することです。このステップでは、まずベースライン SMTで説明されているようにトークン化を実行する必要があります。私はこのコードを使用しました:
~/mosesdecoder/scripts/tokenizer/tokenizer.perl -l en \
< ~/corpus/training/news-commentary-v8.fr-en.en \
> ~/corpus/news-commentary-v8.fr-en.tok.en
~/mosesdecoder/scripts/tokenizer/tokenizer.perl -l fr \
< ~/corpus/training/news-commentary-v8.fr-en.fr \
> ~/corpus/news-commentary-v8.fr-en.tok.fr
( S = フランス語 & T = 英語)
2時間後、まだ動いていることを確認しました。予想外だったので気になりました。それからたった10文でやってみました。驚いたことに、それから 30 分が経過しましたが、まだ実行中です。
私は何か悪いことをしましたか?
PS: OS = Ubuntu 14.04.5 LTS ソニー ウルトラブック デュアル ブートなし。