Mahout を使用して Amazon EMR でクラスタリング ジョブを実行しようとしています。S3 にアップロードした solr インデックスがあり、mahouts lucene.vector を使用してベクトル化したいと考えています (これはジョブ フローの最初のステップです)。
ステップのパラメーターは次のとおりです。
- Jar: s3n://mahout-bucket/jars/mahout-core-0.6-job.jar
- MainClass: org.apache.mahout.driver.MahoutDriver
- 引数: lucene.vector --dir s3n://mahout-input/solr_index/ --フィールド名 --dictOut /test/solr-dict-out/dict.txt --output /test/solr-vectors-out/vectors
ログのエラーは次のとおりです。
不明なプログラム「lucene.vector」が選択されました。
Hadoop と Mahout を使用してローカルで同じプロセスを実行したところ、問題なく動作しました。EMR で lucene.vector 関数を呼び出すにはどうすればよいですか?