外国語学習者向けのテキストに、難しい単語の翻訳を自動的に追加したいと考えています。
たとえば、元のテキストが次の場合:
El gato esta en la casa de mis vecinos
なる
El gato esta en la casa de mis vecinos (隣人)
最初のステップは、どの単語が難しい単語かを特定することです。これは、元のテキストの単語を見出し語化し、それらを「簡単な単語」のリスト (1500 ~ 2000 単語の基本語彙) と比較することによって行うことができます。このリストにないものは「ハード ワード」として指定されます。このプロセスは、Python 用の自然言語ツール キット (NLTK) を使用することで十分に簡単に見えます。
「新婚」、句動詞「彼は私を呼んだ」、ドイツ語の「er ruft mich an」(アンルフェン)など、ペアとして翻訳しなければならない単語にはいくつかの困難があります。ここでは単語を個別に扱うことはできません。句動詞などについては、おそらく文法の理解が必要です。
2 番目のステップでは、難しい単語が出現する文脈に応じて正しい訳語を取得します。私が理解しているように、これはグーグル翻訳のような統計的機械翻訳システムの前半を効果的に適用しています. この問題は、翻訳するテキストを送信できる Google Translate Research API を使用して解決できると思います。応答には、翻訳のどの単語が元のテキストのどの単語に対応するかに関する情報が含まれます。したがって、文全体をフィードして、応答から必要な単語を見つけることができます。ただし、この API を使用するには申請する必要があり、使用制限があるため、私のアプリケーションでは問題になる可能性があります。私はむしろ別の解決策を見つけたいと思います。100% 正しい翻訳を提供するソリューションはなく、手動でチェックする必要があると思います。
コメントしてくれてありがとう。
デビッド