mahout - lucene.vector を使用して mahout で solr インデックスをベクトル化する

Question

Mahout を使用して Amazon EMR でクラスタリングジョブを実行しようとしています。S3 にアップロードした solr インデックスがあり、mahouts lucene.vector を使用してベクトル化したいと考えています (これはジョブフローの最初のステップです)。

ステップのパラメーターは次のとおりです。

Jar: s3n://mahout-bucket/jars/mahout-core-0.6-job.jar
MainClass: org.apache.mahout.driver.MahoutDriver
引数: lucene.vector --dir s3n://mahout-input/solr_index/ --フィールド名 --dictOut /test/solr-dict-out/dict.txt --output /test/solr-vectors-out/vectors

ログのエラーは次のとおりです。

不明なプログラム「lucene.vector」が選択されました。

Hadoop と Mahout を使用してローカルで同じプロセスを実行したところ、問題なく動作しました。EMR で lucene.vector 関数を呼び出すにはどうすればよいですか?

score 0 · Accepted Answer

私は最終的に答えを考え出しました。問題は、間違った MainClass 引数を使用していたことです。それ以外の

org.apache.mahout.driver.MahoutDriver

私は使用する必要がありました：

org.apache.mahout.utils.vectors.lucene.Driver

したがって、正しい引数は

Jar: s3n://mahout-bucket/jars/mahout-core-0.6-job.jar MainClass:
org.apache.mahout.utils.vectors.lucene.Driver
引数: --dir s3n://mahout-input/solr_index/ --フィールド名 --dictOut /test/solr-dict-out/dict.txt --output /test/solr-vectors-out/vectors

score 0 · Accepted Answer

プログラム名、lucene.vector は bin/mahout の直後にある必要があります

/homes/cuneyt/trunk/bin/mahout lucene.vector --dir /homes/cuneyt/lucene/index --field 0 --output lda/vector --dictOut /homes/cuneyt/lda/dict.txt

2 に答える 2