私が行っているいくつかの MT 研究に Berkeley Aligner を使用したいと考えています。これは明らかに、GIZA++ よりもかなり手軽に勝っているからです (いくつかの報告された結果では、アライメント エラーが 32% 減少しました)。ほとんどの場合、Berkeley Aligner の "examples" ディレクトリの出力は、Moses が GIZA++ 出力ファイルに対して行っているように見えますが (つまり、単語インデックスのペアを揃えたもの)、特定のペアの後に変な形の "-P" がいくつかあります。これらの "-P" 注釈が何を意味するのかについてのドキュメントを見つけることはできません (確かに、Berkeley Aligner の "ドキュメント" ディレクトリにはありません)。
わかりやすくするために、少し説明的な例を挙げます。「Jean plâit à Marie」と「Marie likes Jean」という文があるとします。フランス語がソース言語で、英語がターゲット言語です。"Jean" (インデックス 0 と 2、それぞれ) と "Marie" (インデックス 3 と 0、それぞれ) という単語は両方の文で並べられており、"plâit" と "à" (フランス語のインデックス 1 と 2、それぞれ) が並んでいます。 ) は「like」(英語インデックス 1) と並んでいます。Moses で後処理された GIZA++ 出力では、これはソースとターゲットのインデックス ペアのリストで示されます。
0-2 1-1 2-1 3-0
Berkeley Aligner はこれによく似たファイルを生成しますが、一部のインデックス ペアには -P が付いています (たとえば、1-1-P のように表示される場合があります) 。
これはどういう意味ですか?これらの -P 注釈を安全に削除して、GIZA++-via-Moses スタイルのアラインメントを取得できますか?それとも、さらに何かを行う必要がありますか?