私のセットアップは次のとおりです:Ubuntu Server 12.04 LTS上のNutch 1.6およびSolr 4.3.0
大規模な Web サイトのコンテンツをクロールしてインデックスを作成する必要があり、別のコアを使用してこれを実行したいと考えています。
Solr を構成し、次のように開始しました。
java -Dsolr.solr.home=multicore -jar start.jar
次に、Nutch を 2 回構成して起動しました。ソース URL フォルダーとインデックスの宛先 (core0、core1) ごとに 1 回です。
bin/nutch crawl urlsNewsArticles -dir crawlNewsArticles -solr http://localhost:8983/solr/core1 -depth 10 -topN 100000
bin/nutch crawl urlsPictureGalleries -dir crawlPictureGalleries -solr http://localhost:8983/solr/core0 -depth 10 -topN 100000
結果は完璧ですが、望ましくない URL パターンを除外するために、regex-urlfilter.txt ファイルでいくつかの正規表現を指定する必要がありました。これらの正規表現セットは 2 つのクロール セッションで異なるため、2 回目のクロールを実行する前に regex-urlfilter.txt ファイルを編集する必要がありました。
質問: 2 つの別個の regex-urlfilter.txt ファイルを準備し、各 /bin/nutch コマンド ラインで適切なファイルを指定する方法はありますか?
2 つの URL セットとコアを使用して実験的な構成を開始したことを考慮してください。ただし、少なくとも 5 つを構成する必要があり、その間に手動で編集セッションを行わずに自動再クロールを構成する必要があります....