私は、構造によって文レベルですでに調整されているテキストコーパスを持っています。これは、英語の文字列と別の言語への翻訳のペアのリストです。私は、それぞれ 5 ~ 20 語の文字列とその翻訳を約 10,000 個持っています。私の目標は、翻訳の品質の測定基準を構築しようとすることです-もちろん、私は何も知らない言語を扱っているため、自動的に:)
この翻訳リストから辞書を作成して、ソースの英語の文字列の各単語を他の言語に (最も可能性の高い) 翻訳したいと考えています。辞書が完璧にはほど遠いことはわかっていますが、単語が一貫して翻訳されていない場合にフラグを立てるのに十分な何かがあることを望んでいます。 「Store」が「Boutique」と訳されている場所を見つけたら、何かがおかしいのではないかと疑うことができます。
だから私はする必要があります:
- 私のコーパスから辞書を作る
- 文字列/翻訳ペア内の単語を揃えます
これを行う方法についての良い参考文献はありますか?既知のアルゴリズム? テキストの配置に関する多くのリンクを見つけましたが、それらは単語レベルよりも文レベルにあるようです...
翻訳が一貫しているかどうかを自動的にチェックする方法に関する他の提案は大歓迎です!
前もって感謝します。