私は Moses をいじり始め、かなり標準的なベースライン システムになると思われるものを作成しようとしました。私は基本的にWeb サイトに記載されている手順に従いましたが、使用する代わりに、WMT 2006 開発セットと元の Europarl 共通テストをnews-commentary
使用して、 Europarl v7 をトレーニングに使用しました。私のアイデアは、ベースラインの英語からフランス語へのシステムで .68 の BLEU スコアを獲得したLe Nagard & Koehn (2010) と同様のことを行うことでした。
要約すると、私のワークフローは多かれ少なかれ次のとおりでした。
tokenizer.perl
すべてにlowercase.perl
(代わりにtruecase
)clean-corpus-n.perl
- Europarl v7 のフランスのデータのみを使用して IRSTLM モデルをトレーニングする
train-model.perl
説明どおりmert-moses.pl
WMT 2006 dev を使用- 説明されているパフォーマンスのテストと測定
結果の BLEU スコアは .26 です... これにより、次の 2 つの疑問が生じます。
- これは、この種のベースライン システムの典型的な BLEU スコアですか? Europarl は単一言語モデルをトレーニングするための非常に小さなコーパスであることは理解していますが、これは Moses の Web サイトで行われている方法です。
- SMT や Moses を始めたばかりの人が陥りがちな典型的な落とし穴はありますか? それとも、Le Nagard & Koehn のような研究者は、Moses の Web サイトで説明されているものとは異なる方法でベースライン システムを構築していますか?