9

単語の整列ツールとアルゴリズムを探しています。
私はバイリンガルの英語とヒンディー語のテキストを扱っており、現在取り組んでいます

  • DTW (ダイナミック タイム ワーピング) アルゴリズム
  • CLA(競合リンクアルゴリズム)
  • NAツール
  • ギザ++

言語に依存せず、並列英語ヒンディー語コーパスとその評価の統計的単語アライメントを達成できる他のアルゴリズム/ツールを提案してください。
一部のツールは特定の言語に最適です。それがどれほど正しいか教えてください。もしそうなら、ヒンディー語などのアジア言語により適した例を教えてください。そのような言語で使用してはいけないものの反例も歓迎します。

Uplug word alignerについて少し聞いたことがあります...このツールが私の目的に役立つかどうか誰か教えてください。

ありがとうございました.. :)

4

4 に答える 4

6

Berkeley Alignerは非常に優れています。IBM 単語アラインメント モデルの共同トレーニングを行うことで、GIZA++ のような古いパッケージよりもはるかに低いアラインメント エラー率 (AER) を得ることができます。

また、構文のゆがみ (つまり、解析ツリー情報を使用してより適切な配置を取得する) など、より高度な機能もサポートしています。このために必要なのは、言語ペアの 1 つの解析ツリーだけです。したがって、自由に利用できる優れた英語パーサーがたくさんあるので、ヒンディー語<->英語を使用しても問題ありません。

Berkeley Aligner を使用しない場合は、おそらく GIZA++ を使用する必要があります。何年もの間、機械翻訳コミュニティでは基本的に標準の単語アライナーでした。

于 2010-03-18T04:08:24.227 に答える
3

Uplug は素晴らしいツールです。私はこれを使って英語とマケドニア語のテキストを揃えています。基本的に、いわゆる手がかりの配置を追加することにより、Giza++ に基づいて構築されます。これは高度な設定で、実際には手がかりの配置と Giza++ を組み合わせて、そのような 3 回の反復を実行します。手がかり (pos-tags、lemmas ...) が多ければ多いほど、結果は良くなります。ただし、Giza++ を使用した場合とは根本的に異なる結果が得られるとは期待しないでください。

とにかく、SMT のトピックを真剣に研究する予定がある場合は、Uplug に関する論文 (博士論文) を読むことをお勧めします。これは非常に有益です。

于 2010-05-14T00:08:19.547 に答える
0

Mosesは、検討したい統計的機械翻訳スイートです。その単語アライメント コンポーネントは GIZA++ に基づいて構築されていますが、純粋な GIZA++ よりも特定の言語ペアでより適切に機能するように微調整される場合があります。彼らのメーリング リストとhttp://www.statmt.org/にあるリソースも、SO よりもこのトピックに関する質問をするのに適した場所かもしれません。あなたが何も言わなかったが、私がさらに問題だと思うことの 1 つは、ヒンディー語 <-> 英語の対訳コーパスをどこで入手するかということです。

于 2010-03-12T19:06:05.453 に答える
-1

漠然とした幅広い質問があります。

試してください: http://scholar.google.com/scholar?q=algorithm+language+independent+statistical+word+alignment&hl=en&safe=off&client=firefox-a&hs=hJt&rls=com.ubuntu:en-US:official&um=1&ie= UTF-8&oi=学者

この分野の論文のリストについては、 を参照してください。

于 2010-03-12T00:30:29.013 に答える