nlp - GIZA ++を使用して単語の整列に多くのメモリと時間を消費するmkclsを解決するにはどうすればよいですか？

Question

Europarlコーパスのbitextsの単語を揃えるためにGIZA++を使用しています。

を使用してアライメントモデルをトレーニングする前に、 mkclsGIZA++スクリプトを使用して、隠れマルコフモデルアルゴリズムに必要なクラスを作成する必要があります。

mkcls -n10 -pcorp.tok.low.src -Vcorp.tok.low.src.vcb.classes

小さいサイズの1000行のコーパスで試してみましたが、正常に動作し、数分で完了しました。今私は150万行のコーパスでそれを試していますそしてそれは私のCPUの1つの100％を占めています(Six-Core AMD Opteron(tm) Processor 2431 × 12)

クラスを作成する前に、トークン化し、すべての大文字を低くし、40語を超える行を除外するために必要な手順を実行しました。

mkclsGIZA ++で同様の経験をしている人はいますか？それはどのように解決されますか？Europarlコーパスで同じことをした人がいたら、実行するのにどれくらい時間がかかりましたmkclsか？

score 0 · Accepted Answer

andのmkclsスクリプトは並列化されておらず、Europarl コーパスの 150 万語の文と単語数から、語彙クラスを作成するのに約 1 ～ 2 時間かかります。MOSESGIZA++

他の GIZA++ より前の処理ステップ (つまりplain2snt、snt2cooc) は、はるかに少ない時間と処理能力で済みます。

2 に答える 2