nlp - テキスト要約評価 - BLEU vs ROUGE

Question

2 つの異なる要約システム (sys1 と sys2) と同じ参照要約の結果を使用して、BLEU と ROUGE の両方で評価しました。問題は、sys1 のすべての ROUGE スコアが sys2 より高かった (ROUGE-1、ROUGE-2、ROUGE-3、ROUGE-4、ROUGE-L、ROUGE-SU4、...)、sys1 の BLEU スコアが低かったことです。 sys2 の BLEU スコアより (かなり)。

だから私の質問は: ROUGE と BLEU はどちらも、システムの要約と人間の要約の間の類似性を測定するために n-gram に基づいています。では、なぜこのように評価結果に差が出るのでしょうか。そして、この問題を説明する ROUGE と BLEU の主な違いは何ですか?

score 59 · Accepted Answer

一般に：

Bleu は精度を測定します:機械が生成した要約の単語 (および/または n-gram)が人間の参照要約にどれだけ現れたか。

Rouge 測定の再現率:人間が参照した要約の単語 (および/または n-gram) が、機械で生成された要約にどれだけ出現したか。

当然のことながら、これらの結果は補完的なものであり、精度と再現率の場合によくあることです。人間の参照に表示されるシステム結果からの単語が多い場合は、ブルーが高く、システムの結果に表示される人間の参照からの単語が多い場合は、ルージュが高くなります。

あなたの場合、sys1 の結果は一貫して sys2 の結果よりも多くの人間の参照からの単語が表示されるため、sys1 は sys2 よりも高い Rouge を持っているように見えます。ただし、Bleu スコアは sys1 の再現率が sys2 よりも低いことを示しているため、sys2 に関しては、sys1 の結果から人間の参照にあまり多くの単語が表示されなかったことを示唆しています。

これは、たとえば、sys1 が参照からの単語を含む結果を出力している場合 (Rouge を上げる) だけでなく、参照に含まれていない多くの単語も含む (Blue を下げる) 場合に発生する可能性があります。sys2は、出力されたほとんどの単語が人間の参照に表示される結果を提供しているように見えますが（青を上げています）、人間の参照に表示される結果から多くの単語が欠落しています。

ところで、簡潔性ペナルティと呼ばれるものがあります。これは非常に重要であり、標準の Bleu 実装に既に追加されています。参照の一般的な長さよりも短いシステム結果にペナルティを課します (詳細については、こちらを参照してください)。これは、システム結果が長くなるほど分母が大きくなるため、実際には参照結果よりも長いペナルティを課す n-gram メトリックの動作を補完します。

Rouge にも同様のものを実装することができますが、今回は一般的な参照長よりも長いシステム結果にペナルティを課します。そうしないと、人為的に高い Rouge スコアを取得できるようになります (結果が長いほど、いくつかのヒットする可能性が高くなるため)。参考文献に出てくる単語）。Rouge では、人間の参照の長さで除算するため、人為的に Rouge スコアを上げる可能性がある、より長いシステム結果に対して追加のペナルティが必要になります。

最後に、F1 メジャーを使用してメトリックを連携させることができます: F1 = 2 * (ブルー * ルージュ) / (ブルー + ルージュ)

nlp - テキスト要約評価 - BLEU vs ROUGE

3 に答える 3

Related

Reference