0

Apache Nutch-1.6 の複数のインスタンスを同時に実行して、複数の Web サイトをクロールしたいと考えています。Apache Nutch の複数のコピーを異なる場所にインストールし、すべてのコピーに対して nutch のクロール コマンドを実行するための 1 つの (またはマスター) .sh ファイルを作成する必要がありますか? または、複数のインスタンスに対して Nutch の単一のコピーを構成することは可能ですか?

4

1 に答える 1

0

「bin/crawl」スクリプトを使用しました。2つの異なる端末で同時に実行しました。どちらもバグなしで実行を終了しました(少なくとも私の判断によると)。各同時インスタンスに異なるシード ディレクトリとクロール ディレクトリを指定しました。

ただし、ここの別のスレッドによると、異なる同時インスタンスを実行し、インスタンスごとに異なる /tmp/ パスを指定するたびに、異なる「構成」ファイルを指定して bin/nutch コマンドを実行する必要があると記載されています。私自身はその面倒を経験する必要はありませんでした。上記の方法は私にとってはかなりうまくいきました

于 2016-03-18T10:54:53.767 に答える