3

私は Moses をいじり始め、かなり標準的なベースライン システムになると思われるものを作成しようとしました。私は基本的にWeb サイトに記載されている手順に従いましたが、使用する代わりに、WMT 2006 開発セットと元の Europarl 共通テストをnews-commentary使用して、 Europarl v7 をトレーニングに使用しました。私のアイデアは、ベースラインの英語からフランス語へのシステムで .68 の BLEU スコアを獲得したLe Nagard & Koehn (2010) と同様のことを行うことでした。

要約すると、私のワークフローは多かれ少なかれ次のとおりでした。

  1. tokenizer.perlすべてに
  2. lowercase.perl(代わりにtruecase)
  3. clean-corpus-n.perl
  4. Europarl v7 のフランスのデータのみを使用して IRSTLM モデルをトレーニングする
  5. train-model.perl説明どおり
  6. mert-moses.plWMT 2006 dev を使用
  7. 説明されているパフォーマンスのテストと測定

結果の BLEU スコアは .26 です... これにより、次の 2 つの疑問が生じます。

  • これは、この種のベースライン システムの典型的な BLEU スコアですか? Europarl は単一言語モデルをトレーニングするための非常に小さなコーパスであることは理解していますが、これは Moses の Web サイトで行われている方法です。
  • SMT や Moses を始めたばかりの人が陥りがちな典型的な落とし穴はありますか? それとも、Le Nagard & Koehn のような研究者は、Moses の Web サイトで説明されているものとは異なる方法でベースライン システムを構築していますか?
4

1 に答える 1

5

最初に簡単に言うと、あなたが言及している .68 は BLEU とは何の関係もありません。

私のアイデアは、ベースラインの英語からフランス語へのシステムで .68 の BLEU スコアを獲得した Le Nagard & Koehn (2010) と同様のことを行うことでした。

あなたが参照している記事では、代名詞の 68% (相互参照の解決を使用) が正しく翻訳されたとのみ述べています。.68 BLEU スコアが得られたことはどこにも言及されていません。実際のところ、スコアは与えられませんでした。これはおそらく、論文が提案する質的改善を統計的有意性で測定できないためです (これは、少数の単語のみを改善した場合に多く発生します)。このため、この論文では代名詞のみの手動評価を使用しています。

より良い評価指標は、正しく翻訳された代名詞の数です。これには、翻訳結果を手動で検査する必要があります。

ここで .68 の出番です。

あなたが得た.26に関してあなたの質問に答えるために今:

これは、この種のベースライン システムの典型的な BLEU スコアですか? Europarl は、単一言語モデルをトレーニングするための非常に小さなコーパスであることは理解していますが、これは Moses の Web サイトで行われている方法です。

はい、そうです。WMT 言語ペアのパフォーマンスは、 http://matrix.statmt.org/で確認できます。

SMT や Moses を始めたばかりの人が陥りがちな典型的な落とし穴はありますか? それとも、Le Nagard & Koehn のような研究者は、Moses の Web サイトで説明されているものとは異なる方法でベースライン システムを構築していますか?

システムを正しくトレーニングしたと思います。「未公開コーパス」の質問に関して: 学術コミュニティのメンバーは通常、各実験について、少なくとも査読済みの出版物で、トレーニングのテストと調整に使用されたデータセットを述べています。唯一の例外は WMT タスク (たとえば、http://www.statmt.org/wmt14/translation-task.htmlを参照) であり、システムが制約のないトラックに参加する場合、個人所有のコーパスを使用できます。しかしそれでも、人々は追加のデータを使用したと言うでしょう。

于 2015-05-07T09:40:39.640 に答える