19

「readme」ファイルの URL が無効です ( http://www.fjoch.com/mkcls.htmlおよびhttp://www.fjoch.com/GIZA++.html )。giza++ に関する適切なチュートリアルはありますか? または、完全なドキュメントがある代替手段はありますか?

4

5 に答える 5

41

以下は、私がクラス用にまとめているチュートリアルからの抜粋です。(注: これは、*nix システムに GIZA++-v2 が正常にインストールされていることを前提としています。)


  1. 1 行に 1 文ずつ、トークン化された並列文を含む 2 つのデータ ファイルから始めます。たとえば、英語とフランス語の並列ファイルのペアは次のようになります。

サンプル 1 -train.en

I gave him the book . 
He read the book . 
He loved the book .

サンプル 2 -train.fr

Je lui ai donne/ le livre .
Il a lu le livre .
Il aimait le livre .
  1. これらのファイルを実行しplain2snt.outて、ターゲット語彙ファイルとソース語彙ファイル ( *.vcb) およびセンテンス ペア ファイル ( *.snt) を取得します。

GIZA++ ディレクトリから、次を実行します。

./plain2snt.out TEXT1 TEXT2

ここでTEXT1、 とTEXT2は手順 1 で説明したデータ ファイルです。

TEXT1これにより、 and と同じディレクトリに 4 つのファイルが生成されますTEXT2(これらが同じディレクトリにあると仮定します)。

  • TEXT1_TEXT2.snt
  • TEXT1.vcb
  • TEXT2_TEXT1.snt
  • TEXT2.vcb

vocab ファイルには、テキスト内の各単語の一意の (整数) ID (注: トークン化/見出し語化されていない)、単語/文字列、および文字列が出現した回数が含まれています。これらは単一のスペース文字で区切られています。

文ファイルには数字が含まれています。各センテンス ペアには 3 つの行があります。1 つ目はコーパス内でセンテンス ペアが出現する回数のカウントで、2 つ目と 3 つ目はコーパス内の単語のエントリに対応する (スペースで区切られた) 数字の文字列です。語彙ファイル。ファイルの命名規則に基づいて*.snt、最初のファイルがソースであると想定され、2 番目のファイルがターゲット言語であると想定されます。たとえば、ファイルTEXT1_TEXT2.sntでは、最初の行は最初の文のペアがコーパスで発生した回数のカウントになり、2 行目はTEXT1.vcbファイル内の単語に対応する数字の文字列になり、3 行目はTEXT2.vcbファイル内の単語に対応する数字の文字列です。

  1. TEXT1.vcbTEXT2.vcb、および 2 つのファイルのいずれか*.sntを GIZA++ への入力として使用して、アライメントを作成できます。

例えば:

./GIZA++ -s TEXT1.vcb -t TEXT2.vcb -c TEXT1_TEXT2.snt

ただし、これを実行しようとしたときにTEXT1_TEXT2.snt、適切な出力を得るために、名前にアンダースコアを含まない名前に変更する必要があったことに注意してください。

于 2011-05-08T22:10:58.950 に答える
3

このパワーポイントのチュートリアルは私のために働いた: http://www.tc.umn.edu/~bthomson/wordalignment/GIZA.ppt

于 2013-07-05T12:36:05.020 に答える
0

入力ファイルをフォーマットする方法とGIZA++を実行する方法の補足説明がここにあります:

http://www.tc.umn.edu/~bthomson/wordalignment/GIZAREADME.txt

于 2011-10-05T20:01:10.693 に答える