13

ローカリゼーション ワークフローに組み込むことができるオープン ソースの機械翻訳エンジンを探しています。以下のオプションを検討しています。

  1. モーセ(C++)
  2. ジョシュア(ジャワ)
  3. フレーズ(Java)

これらの中で、Moses はコミュニティのサポートが最も広く、多くのローカリゼーション企業や研究者によって試されてきました。私たちのアプリケーションはすべて Java で作成されているため、実際には Java ベースのエンジンに傾倒しています。Joshua または Phrasal をワークフローの一部として使用した人はいますか。あなたの経験を彼らと共有していただけますか?それとも、提供する機能と統合の容易さの点で、Moses はこれらよりもはるかに進んでいますか。

また、エンジンが以下をサポートする必要があります。

  1. ドメイン固有のトレーニング (つまり、入力データが属するドメインごとに個別のフレーズ テーブルを維持する必要があります)。
  2. 増分トレーニング (つまり、新しいトレーニング データを使用するたびにモデルを最初から再トレーニングする必要がなくなります)。
  3. 翻訳プロセスの並列化。
4

2 に答える 2

5

この質問は、Moses メーリング リスト (moses-support@mit.edu) で尋ねたほうがよいと思います。そこにはさまざまな種類のシステムを扱っている人がたくさんいるので、客観的な答えが得られます。それとは別に、ここに私の入力があります:

  • Java に関しては、MT システムがどの言語で書かれているかは問題ではありません。気分を害することはありませんが、コードが使い慣れた言語で書かれていても、MT に関する深い知識がなければ理解するのは難しすぎると考えて間違いありません。したがって、探しているのはインターフェイスです。Moses の xml-rpc は正常に動作します。
  • MT システムに関しては、最良の結果を探し、それが書かれているプログラミング言語を無視してください。結果はここにあります: matrix.statmt.org . MT システムを使用する人々は、コーディングの好みではなく出力に関心があります。
  • ベンチャー全体に関して: MT アウトプットの提供を開始したら、すぐに適応できることを確認してください。MT は、MT システムが (唯一ではなく) コア コンポーネントであるパイプライン プロセスに急速に移行しています。そのため、保守性に重点を置いてください。理想的なケースでは、任意の MT システムをフレームワークに接続できます。

そして、ここにあなたの機能リクエストに関するいくつかの入力があります:

  • ドメイン固有のトレーニング: その機能は必要ありません。顧客固有のデータ トレーニングを使用することで、最高の MT 結果を得ることができます。
  • 増分トレーニング:ストリーム ベースの統計的機械翻訳を参照してください。
  • 翻訳プロセスの並列化: これは自分で実装する必要があります。ほとんどの MT ソフトウェアは純粋に学術的なものであり、1.0 マイルストーンに到達することはありません。もちろん、マルチスレッド サーバー (Moses) が利用可能であれば役に立ちますが、それでも、多くの利用コードが必要になります。

お役に立てれば。他にご不明な点がございましたら、お気軽に PM までお問い合わせください。

于 2012-10-09T08:45:34.307 に答える