Europarlコーパスのbitextsの単語を揃えるためにGIZA++を使用しています。
を使用してアライメントモデルをトレーニングする前に、 mkclsGIZA++
スクリプトを使用して、隠れマルコフモデルアルゴリズムに必要なクラスを作成する必要があります。
mkcls -n10 -pcorp.tok.low.src -Vcorp.tok.low.src.vcb.classes
小さいサイズの1000行のコーパスで試してみましたが、正常に動作し、数分で完了しました。今私は150万行のコーパスでそれを試していますそしてそれは私のCPUの1つの100%を占めています(Six-Core AMD Opteron(tm) Processor 2431 × 12)
クラスを作成する前に、トークン化し、すべての大文字を低くし、40語を超える行を除外するために必要な手順を実行しました。
mkcls
GIZA ++で同様の経験をしている人はいますか?それはどのように解決されますか?Europarlコーパスで同じことをした人がいたら、実行するのにどれくらい時間がかかりましたmkcls
か?