nlp - Berkeley Aligner の出力形式の「-P」は何ですか?

Question

私が行っているいくつかの MT 研究に Berkeley Aligner を使用したいと考えています。これは明らかに、GIZA++ よりもかなり手軽に勝っているからです (いくつかの報告された結果では、アライメントエラーが 32% 減少しました)。ほとんどの場合、Berkeley Aligner の "examples" ディレクトリの出力は、Moses が GIZA++ 出力ファイルに対して行っているように見えますが (つまり、単語インデックスのペアを揃えたもの)、特定のペアの後に変な形の "-P" がいくつかあります。これらの "-P" 注釈が何を意味するのかについてのドキュメントを見つけることはできません (確かに、Berkeley Aligner の "ドキュメント" ディレクトリにはありません)。

わかりやすくするために、少し説明的な例を挙げます。「Jean plâit à Marie」と「Marie likes Jean」という文があるとします。フランス語がソース言語で、英語がターゲット言語です。"Jean" (インデックス 0 と 2、それぞれ) と "Marie" (インデックス 3 と 0、それぞれ) という単語は両方の文で並べられており、"plâit" と "à" (フランス語のインデックス 1 と 2、それぞれ) が並んでいます。 ) は「like」(英語インデックス 1) と並んでいます。Moses で後処理された GIZA++ 出力では、これはソースとターゲットのインデックスペアのリストで示されます。

0-2 1-1 2-1 3-0

Berkeley Aligner はこれによく似たファイルを生成しますが、一部のインデックスペアには -P が付いています (たとえば、1-1-P のように表示される場合があります) 。

これはどういう意味ですか？これらの -P 注釈を安全に削除して、GIZA++-via-Moses スタイルのアラインメントを取得できますか?それとも、さらに何かを行う必要がありますか?

score 1 · Accepted Answer

私はこれについてあまり知りませんが、コードを検索しました：

http://www.google.com/codesearch?hl=ja&lr=&q=%22-P%22+パッケージ:http:// berkeleyaligner .googlecode.com&sbtn=検索

    /**
     * Writes the sure and proposed alignments in a modified
     * version of the Pharaoh format.
     *
     * For example, if we have 7 sure alignments and two possibles, we get:
     *
     * enPos1-frPos1 enPos2-frPos2 ... enPos8-frPos8-P enPos9-frPos9-P
     *
     * here, the -P indicates possible alignments.
     */
    public String outputHard() {
            return dumpModifiedPharaoh(false);
    }

これらは「可能な」配置のようです。これは、「ハード」アラインメントを Pharaoh(?) 形式で出力するようにコードが設定されているためです。-P アライメントを使用またはダンプするか、「ソフト」出力に切り替えるかを決定できるようです。これにより、各ペアに強度が与えられ、しきい値パラメーターがスイープされます。

nlp - Berkeley Aligner の出力形式の「-P」は何ですか?

1 に答える 1

Related

Reference