translation - 翻訳された文を照合するためのヒューリスティックを設計するにはどうすればよいですか?

Question

概要

翻訳文を (元の言語から翻訳された言語に) 一致させるためのヒューリスティックを設計しようとしていますが、ガイダンスとヒントが必要です。おそらく、すでに似たようなことをしているヒューリスティックがありますか? したがって、2 つのテキストファイルが与えられた場合、文を照合できるようにしたいと考えています (したがって、文を選択して、これがその文の翻訳であると言うことができます)。

詳細

入力テキストは翻訳された小説になります。したがって、翻訳が文字通りであるとは思いませんが、ヒューリスティックの精度をテストするには、 Google 翻訳などを使用するのが良い方法かもしれません。

私を助けるために、私は翻訳されたテキストの内容を詳しく説明し、文中の単語の定義を提供するライブラリを持っています. 私が知っている他のこと：

章と順序は保持されます。私は、第 3 章の最初の文が翻訳の第 3 章の最初の文と一致することを知っています (注意、これは厳密には正しくありません。最初の文は最初の 2 つの文、または 2 番目の文と一致する場合もあります)。
全体のサイズ (文字、文、段落) を計算できます。これにより、文のサイズの平均的な違いを知ることができます (たとえば、翻訳は 30% 長くなる可能性があります)。

私が持っているいくつかの本を見てみると、翻訳版は原文よりも約 30% 文章が多くなっています。

実装

（それが重要な場合）

私は Java でこれを行うことを計画していますが、それほど大騒ぎしているわけではありません。どの言語でも構いません。
速度はあまり気にしません。

確実に一致させるために、ユーザーからのフィードバックが必要になる場合があります。「はい、この文は間違いなくその文と一致します」と言うようなものです。これにより、ヒューリスティックに立つための根拠がいくらか与えられます。これは、ユーザーが言語に多少習熟している必要があることを意味します。

バックグラウンド

（興味のある方）

これを作りたい理由は、外国語の勉強に役立てたいからです。私は日本語を勉強していますが、「良い」素材を見つけるのが難しいと感じています (「良い」とは、好きなものによって定義されます)。ビデオの字幕で同様のことを行うためのツールが既にあります (ビデオのタイミング情報を使用すると、より簡単な作業になります)。しかし、私の知る限り、テキストについては何もありません。

score 1 · Accepted Answer

NLP の研究で使用されている「センテンスアライナー」と呼ばれるツールがあり、まさにあなたが望むことを行います。

hunalign にアドバイスします。

http://mokk.bme.hu/resources/hunalign/

および MS センテンスアライナー:

http://research.microsoft.com/en-us/downloads/aafd5dcf-4dcc-49b2-8a22-f7055113e656/

どちらもまったく問題ありませんが、完璧なものはありません。揃えるのが難しすぎる文は削除され、一部の文が正しく揃えられない場合があります。

translation - 翻訳された文を照合するためのヒューリスティックを設計するにはどうすればよいですか?

概要

詳細

実装

バックグラウンド

1 に答える 1

Related

Reference