概要
翻訳文を (元の言語から翻訳された言語に) 一致させるためのヒューリスティックを設計しようとしていますが、ガイダンスとヒントが必要です。おそらく、すでに似たようなことをしているヒューリスティックがありますか? したがって、2 つのテキスト ファイルが与えられた場合、文を照合できるようにしたいと考えています (したがって、文を選択して、これがその文の翻訳であると言うことができます)。
詳細
入力テキストは翻訳された小説になります。したがって、翻訳が文字通りであるとは思いませんが、ヒューリスティックの精度をテストするには、 Google 翻訳などを使用するのが良い方法かもしれません。
私を助けるために、私は翻訳されたテキストの内容を詳しく説明し、文中の単語の定義を提供するライブラリを持っています. 私が知っている他のこと:
- 章と順序は保持されます。私は、第 3 章の最初の文が翻訳の第 3 章の最初の文と一致することを知っています (注意、これは厳密には正しくありません。最初の文は最初の 2 つの文、または 2 番目の文と一致する場合もあります)。
- 全体のサイズ (文字、文、段落) を計算できます。これにより、文のサイズの平均的な違いを知ることができます (たとえば、翻訳は 30% 長くなる可能性があります)。
私が持っているいくつかの本を見てみると、翻訳版は原文よりも約 30% 文章が多くなっています。
実装
(それが重要な場合)
- 私は Java でこれを行うことを計画していますが、それほど大騒ぎしているわけではありません。どの言語でも構いません。
- 速度はあまり気にしません。
確実に一致させるために、ユーザーからのフィードバックが必要になる場合があります。「はい、この文は間違いなくその文と一致します」と言うようなものです。これにより、ヒューリスティックに立つための根拠がいくらか与えられます。これは、ユーザーが言語に多少習熟している必要があることを意味します。
バックグラウンド
(興味のある方)
これを作りたい理由は、外国語の勉強に役立てたいからです。私は日本語を勉強していますが、「良い」素材を見つけるのが難しいと感じています (「良い」とは、好きなものによって定義されます)。ビデオの字幕で同様のことを行うためのツールが既にあります (ビデオのタイミング情報を使用すると、より簡単な作業になります)。しかし、私の知る限り、テキストについては何もありません。