2

Mahout を使用して Amazon EMR でクラスタリング ジョブを実行しようとしています。S3 にアップロードした solr インデックスがあり、mahouts lucene.vector を使用してベクトル化したいと考えています (これはジョブ フローの最初のステップです)。

ステップのパラメーターは次のとおりです。

  • Jar: s3n://mahout-bucket/jars/mahout-core-0.6-job.jar
  • MainClass: org.apache.mahout.driver.MahoutDriver
  • 引数: lucene.vector --dir s3n://mahout-input/solr_index/ --フィールド名 --dictOut /test/solr-dict-out/dict.txt --output /test/solr-vectors-out/vectors

ログのエラーは次のとおりです。

不明なプログラム「lucene.vector」が選択されました。

Hadoop と Mahout を使用してローカルで同じプロセスを実行したところ、問題なく動作しました。EMR で lucene.vector 関数を呼び出すにはどうすればよいですか?

4

2 に答える 2

0

私は最終的に答えを考え出しました。問題は、間違った MainClass 引数を使用していたことです。それ以外の

org.apache.mahout.driver.MahoutDriver

私は使用する必要がありました:

org.apache.mahout.utils.vectors.lucene.Driver

したがって、正しい引数は

  • Jar: s3n://mahout-bucket/jars/mahout-core-0.6-job.jar MainClass:
  • org.apache.mahout.utils.vectors.lucene.Driver
  • 引数: --dir s3n://mahout-input/solr_index/ --フィールド名 --dictOut /test/solr-dict-out/dict.txt --output /test/solr-vectors-out/vectors
于 2012-07-18T14:12:19.667 に答える
0

プログラム名、lucene.vector は bin/mahout の直後にある必要があります

/homes/cuneyt/trunk/bin/mahout lucene.vector --dir /homes/cuneyt/lucene/index --field 0 --output lda/vector --dictOut /homes/cuneyt/lda/dict.txt

于 2012-07-18T14:06:14.417 に答える