5

外国語学習者向けのテキストに、難しい単語の翻訳を自動的に追加したいと考えています。

たとえば、元のテキストが次の場合:

El gato esta en la casa de mis vecinos

なる

El gato esta en la casa de mis vecinos (隣人)

最初のステップは、どの単語が難しい単語かを特定することです。これは、元のテキストの単語を見出し語化し、それらを「簡単な単語」のリスト (1500 ~ 2000 単語の基本語彙) と比較することによって行うことができます。このリストにないものは「ハード ワード」として指定されます。このプロセスは、Python 用の自然言語ツール キット (NLTK) を使用することで十分に簡単に見えます。

「新婚」、句動詞「彼は私を呼ん」、ドイツ語の「er ruft mich an」(アンルフェン)など、ペアとして翻訳しなければならない単語にはいくつかの困難があります。ここでは単語を個別に扱うことはできません。句動詞などについては、おそらく文法の理解が必要です。

2 番目のステップでは、難しい単語が出現する文脈に応じて正しい訳語を取得します。私が理解しているように、これはグーグル翻訳のような統計的機械翻訳システムの前半を効果的に適用しています. この問題は、翻訳するテキストを送信できる Google Translate Research API を使用して解決できると思います。応答には、翻訳のどの単語が元のテキストのどの単語に対応するかに関する情報が含まれます。したがって、文全体をフィードして、応答から必要な単語を見つけることができます。ただし、この API を使用するには申請する必要があり、使用制限があるため、私のアプリケーションでは問題になる可能性があります。私はむしろ別の解決策を見つけたいと思います。100% 正しい翻訳を提供するソリューションはなく、手動でチェックする必要があると思います。

コメントしてくれてありがとう。

デビッド

4

1 に答える 1

1

最初のステップでは、アプリオリなボキャブラリに頼る必要はありません。トレーニング コーパスにトークン カウントを蓄積し、ランク順のボキャブラリのカットオフ ポイントの前に発生しないテスト セット内のトークンをマークするだけで十分です。

http://vuw.academia.edu/JosephSorell/Papers/549885/Zipfs_Law_and_Vocabulary

2 番目のステップである「難しい単語が出現する文脈に応じて正しい翻訳を取得する」には、はい、MT API および/または人間の翻訳にアクセスする必要があります。最適なアプローチの選択は、目的によって異なります。

正確な翻訳、迅速な翻訳、または安価な翻訳を行うことができます.3つすべてを同時に行う方法はありません.

于 2012-06-12T17:52:29.703 に答える