algorithm - 字句構造転送に最適なパーサーアルゴリズムは?

Question

より大きなプロジェクトの一環として、言語Aから言語Bへの機械翻訳を実装したいと考えています。この言語セットを自動的に機械翻訳するツールがなく、利用可能な言語 B のコーパスが非常に少ないため、次のことを試みています。

1.言語Aの文が与えられた場合、ツールを使用して言語A PoS (品詞) タグのセットを取得します。

2.私が PoS タグ付けに使用しているツール (Freeling) は解析ツリーを返さないので、一連のタグから独自の解析ツリーを構築することを考えました。

3.解析ツリーが完成したら、それをレベルごとにトラバースし (ルートから開始)、言語Bの文法規則に従って要素を並べ替えます。

いくつかの調査を行った後、Earley 解析 (言語Bの文法は時間の経過とともに変化する可能性があるため、任意の言語を解析する能力に注目したため、特定の基準を常に満たすとは保証できません) について知りました。ただし、私の最終的な目標は構造転送を行うことであるため、ボトムアップパーサーを使用して要素をルールに一致させて並べ替えようとすることでパフォーマンスが向上するかどうか、または間違った道を進んでいるかどうかはわかりません私の解決策は完全に間違っています。

score 0 · Accepted Answer

扱っているソース言語に応じて、FreeLing は解析ツリーを提供します (たとえば、スペイン語、英語、カタロニア語、ポルトガル語など)。

お使いの言語での解析が FreeLing でサポートされていない場合は、文法を記述するだけで追加できます。FreeLing には、文法を適用して解析ツリーを提供する CKY パーサーが含まれています。

このようにして、ステップ 2「一連のタグから独自の解析ツリーを構築する」を達成できます。

転送に関しては、その場で再注文するのが最善の戦略かどうかはわかりません。おそらく、ツリー全体を取得して、後で転送を実行する方がよいでしょう。

目標がルールベースの翻訳である場合は、オープンソースの翻訳プラットフォームhttps://www.apertium.org/をご覧ください。

score 0 · Accepted Answer

解析木を占うための「最良の」アルゴリズムを探しているなら、Parsey McParsefaceを見てください。Google が最近リリースしたオープンソースソリューション。どちらも間違いなく最先端であり、非常に優れた文献概要がREADME.

ルールベースのパーサー、または一般的なレキシコンベースの方法を使用する際の問題は、表示される精度が非常に低いことです。一般に、ここで教師なし手法を使用しようとすると、ほとんどの場合、文法がわずかに不規則であっても、アルゴリズムが失敗する原因となります。特に、ターゲット言語の文法が時間の経過とともに変化する可能性が高い場合は、ルールベースのシステムを使用して説明できない一般的なあいまいさがある可能性があります。

解析ツリーを再構築するための一般的なボトムアップアプローチに関しては、それが正しい解決策であるかどうかを判断するのは困難です。これは確かに解析ツリーを構築するための非常に典型的なアプローチですが、転送の品質は、作業しているドメイン、データセットのサイズ、および両方の言語の文法構造に大きく依存します。結局のところ、機械学習の大きな欠点の 1 つは、新しいアプローチが機能するかどうかを確実に判断できる人がいないことです。

試してみて、適切な指標に従ってパフォーマンスを評価し、変更を加えてパフォーマンスが向上するかどうかを確認する必要があります。悲しいことに、取得したコーパスが非常に小さい場合、自動化された方法で高品質の翻訳を取得する可能性は低く、信号が十分ではありませんが、国連のトランスクリプトをトレーニングセットとして使用すると、文献と比較して、基本的なアプローチを検証することはほとんどありません。

algorithm - 字句構造転送に最適なパーサー アルゴリズムは?

2 に答える 2

Related

Reference

algorithm - 字句構造転送に最適なパーサーアルゴリズムは?