1

私は検索クエリの機械翻訳を行うことを検討し始めており、反復間および他のシステムに対して翻訳システムを評価するさまざまな方法を考えようとしています。最初に頭に浮かぶのは、たくさんの人から mturk の一連の検索用語の翻訳を取得し、それぞれが有効である、またはそのような線に沿ったものであると言うことです。 .

より安価またはより良いものを考えようとしている今、利用可能な標準が既にある場合、または誰かが以前にこれらのいずれかを見つけようとした場合に備えて、StackOverflow にアイデアを求めることにしました。たとえば、Google翻訳がシステムのさまざまな反復をどのように評価するかを知っている人はいますか?

4

3 に答える 3

2

ここには、開発者が MT システムの品質を測定するためによく使用する BLEU スコアリング手法の基本的な説明を提供するため、役立つ情報がいくつかあります。

最初のリンクは BLEU の基本的な概要を提供し、2 番目のリンクは BLEU の制限に関するいくつかの問題を指摘しています。

http://kv-emptypages.blogspot.com/2010/03/need-for-automated-quality-measurement.html

http://kv-emptypages.blogspot.com/2010/03/problems-with-bleu-and-new-translation.html

11 月のニュースレターの AsiaOnline.Net サイトのリンクには、有用なテスト セットを開発する方法に関する非常に具体的な実用的なアドバイスもあります。2つに制限されているため、このリンクを貼ることができません。

于 2011-12-15T04:01:42.367 に答える
1

質問を絞り込むことをお勧めします。機械翻訳には非常に多くの指標があり、それは何をしようとしているのかによって異なります。あなたの場合、問題は次のように単純に述べられていると思います。

これは基本的に言語間情報検索です。

ここで理解しておくべき重要なことは、クエリの翻訳をユーザーに提供することを実際には気にしないということです。クエリを適切に翻訳した場合に得られる結果をユーザーに提供したいのです。

そのためには、ゴールド翻訳とシステムの結果との間の結果リストの不一致を簡単に測定できます。使用できるランク相関、セット オーバーラップなどの多くのメトリックがあります。重要なのは、すべての翻訳を判断する必要はなく、自動翻訳が人間の翻訳と同じ結果をもたらすかどうかを評価することです。

悪い翻訳を提案する人々については、推定上のゴールド スタンダード候補が同様の結果リストを持っているかどうかを評価できます (つまり、3 つの手動翻訳が与えられた場合、結果が一致しますか? そうでない場合は、最も重複する 2 つを使用してください)。もしそうなら、これらはIRの観点から事実上同義語です。

于 2011-12-15T04:27:17.430 に答える
0

MT 評価では、hLEPOR スコアを使用します (詳細については、スライドを参照してください) 。

于 2018-04-05T17:02:52.450 に答える