3

私は、アラビア語とペルシア語で整列された約 100,000 の段落を含む対訳コーパスを持っています。

私のコーパスは、パラグラフ同士が完全に翻訳されていないノイズの多いコーパスです (つまり、アラビア語のパラグラフの一部がペルシア語に翻訳されておらず、句読点も一致していません)。

段落を文に分けるために句読点を使ったのですが、文数が合っていません。

その後、Microsoft Aligner を使用して文章を整列させましたが、結果は本当に間違っています。

コーパスの文をどのように分割して整列させるのですか?

4

1 に答える 1

0

質問で Giza++ タグを使用しました。そこから配置ツールを使用して見ましたか? かなりの数の人が使用していることを私が知っているもう 1 つのオプションは、完全な機能を備えた統計的 MT パッケージであるMosesですが、これが本当に必要な場合は、アライメント モデルを分離して呼び出すことができると思います。

于 2013-02-06T09:47:09.987 に答える