2

私は、構造によって文レベルですでに調整されているテキストコーパスを持っています。これは、英語の文字列と別の言語への翻訳のペアのリストです。私は、それぞれ 5 ~ 20 語の文字列とその翻訳を約 10,000 個持っています。私の目標は、翻訳の品質の測定基準を構築しようとすることです-もちろん、私は何も知らない言語を扱っているため、自動的に:)

この翻訳リストから辞書を作成して、ソースの英語の文字列の各単語を他の言語に (最も可能性の高い) 翻訳したいと考えています。辞書が完璧にはほど遠いことはわかっていますが、単語が一貫して翻訳されていない場合にフラグを立てるのに十分な何かがあることを望んでいます。 「Store」が「Boutique」と訳されている場所を見つけたら、何かがおかしいのではないかと疑うことができます。

だから私はする必要があります:

  1. 私のコーパスから辞書を作る
  2. 文字列/翻訳ペア内の単語を揃えます

これを行う方法についての良い参考文献はありますか?既知のアルゴリズム? テキストの配置に関する多くのリンクを見つけましたが、それらは単語レベルよりも文レベルにあるようです...

翻訳が一貫しているかどうかを自動的にチェックする方法に関する他の提案は大歓迎です!

前もって感謝します。

4

3 に答える 3

2

これは、「単語の配置」と呼ばれるかなり標準的な統計的機械翻訳の問題です。
IBMの研究者によって開発されたEMクラスタリングベースのモデルがたくさんあります。これは、今日開発されている他のほとんどのクーラーモデルのベースであると思います。
「IBMワードアラインメントモデル」のGoogleは、IBMモデル1〜5について検索します。
このプレゼンテーション-http ://www.stanford.edu/class/cs224n/handouts/cs224n-lecture-05-2011-MT.pdfは始めるのに良い場所です。

于 2012-09-03T18:29:51.690 に答える
0

単語間にスペースを使用していますか? どのような文字を使用していてもslice、Linux でコマンドを確認できます。スペースと他の文字の間の単語をフィルタリングする機能を提供します。

于 2012-09-03T13:55:55.160 に答える