1

誰かが私を正しい方向に導いてください。Nutch を Amazon EMR で動作させようとしています。これまでのところ、nutch をローカルで実行し、付属のシェル スクリプトを使用して起動することができます。

ただし、Amazon では、JAR の場所とオプションを指定する必要があります。自分でコンパイルしてjarを取得できます。ただし、起動オプションに関する限り、どこから始めればよいかわかりません。

さらに、1.x と Nutch 2.0 の主な違いは何ですか。EMR ではどちらが推奨されていますか?

4

1 に答える 1

0

まだ答えを探している場合:

Nutch をビルドすると、デプロイ ディレクトリにジョブ jar が表示されます。これを S3 にアップロードし、EMR ジョブ フローのセットアップ中にカスタム Jar として参照します。

その後、ステップを追加して、メイン クラス (例org.apache.nutch.crawl.Crawl:) と必要な引数を指定できます。localこれは、モードでの動作方法と変わりません。例: urls -dir myCrawl -threads 10 -depth 5 -topN 1000.

bin/nutchCrawl.java 以外のものを使用する場合は、スクリプトを確認することで、使用するメイン クラスを知ることができます。

于 2014-05-05T11:02:40.507 に答える