問題タブ [bleu]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
corpus - Europarl を使用した Moses のパフォーマンスがこれほど悪いのはなぜですか?
私は Moses をいじり始め、かなり標準的なベースライン システムになると思われるものを作成しようとしました。私は基本的にWeb サイトに記載されている手順に従いましたが、使用する代わりに、WMT 2006 開発セットと元の Europarl 共通テストをnews-commentary
使用して、 Europarl v7 をトレーニングに使用しました。私のアイデアは、ベースラインの英語からフランス語へのシステムで .68 の BLEU スコアを獲得したLe Nagard & Koehn (2010) と同様のことを行うことでした。
要約すると、私のワークフローは多かれ少なかれ次のとおりでした。
tokenizer.perl
すべてにlowercase.perl
(代わりにtruecase
)clean-corpus-n.perl
- Europarl v7 のフランスのデータのみを使用して IRSTLM モデルをトレーニングする
train-model.perl
説明どおりmert-moses.pl
WMT 2006 dev を使用- 説明されているパフォーマンスのテストと測定
結果の BLEU スコアは .26 です... これにより、次の 2 つの疑問が生じます。
- これは、この種のベースライン システムの典型的な BLEU スコアですか? Europarl は単一言語モデルをトレーニングするための非常に小さなコーパスであることは理解していますが、これは Moses の Web サイトで行われている方法です。
- SMT や Moses を始めたばかりの人が陥りがちな典型的な落とし穴はありますか? それとも、Le Nagard & Koehn のような研究者は、Moses の Web サイトで説明されているものとは異なる方法でベースライン システムを構築していますか?
python - nltk.align.bleu_score.bleu でエラーが発生するのはなぜですか?
中国語の文章の BLEU スコアを計算すると、0 の値が見つかりました。
候補文はc
and 2 つの参考文献はr1
andr2
コードは:
しかし、私は結果を得ました0
。プロセスに足を踏み入れたときbleu
、私はそれを見つけました
上記のプログラムは に進みexcept ValueError
ます。ただし、これがエラーを返す理由がわかりません。他の文を試すと、ゼロ以外の値を取得できます。
nlp - テキスト要約評価 - BLEU vs ROUGE
2 つの異なる要約システム (sys1 と sys2) と同じ参照要約の結果を使用して、BLEU と ROUGE の両方で評価しました。問題は、sys1 のすべての ROUGE スコアが sys2 より高かった (ROUGE-1、ROUGE-2、ROUGE-3、ROUGE-4、ROUGE-L、ROUGE-SU4、...)、sys1 の BLEU スコアが低かったことです。 sys2 の BLEU スコアより (かなり)。
だから私の質問は: ROUGE と BLEU はどちらも、システムの要約と人間の要約の間の類似性を測定するために n-gram に基づいています。では、なぜこのように評価結果に差が出るのでしょうか。そして、この問題を説明する ROUGE と BLEU の主な違いは何ですか?
python - NLTK で BLEU を計算するときの「ZeroDivisionError: Fraction(0, 0)」
次のように、NLTK を使用して 2 つの文字列間の BLEU スコアを計算しようとしています。
実行すると、次のエラーが発生します。
に置き換えるhypothesis = ['Dee']
とhypothesis = ['Deee']
、エラーメッセージが消えます。なんで?
私のシステム:
- NLTK バージョン: 3.2.1。
- Python 2.7.11 x64