solr - Nutch 正規表現ファイルを分離してクロールし、複数の Solr コアにインデックスを付ける

Question

私のセットアップは次のとおりです：Ubuntu Server 12.04 LTS上のNutch 1.6およびSolr 4.3.0

大規模な Web サイトのコンテンツをクロールしてインデックスを作成する必要があり、別のコアを使用してこれを実行したいと考えています。

Solr を構成し、次のように開始しました。

java -Dsolr.solr.home=multicore -jar start.jar

次に、Nutch を 2 回構成して起動しました。ソース URL フォルダーとインデックスの宛先 (core0、core1) ごとに 1 回です。

bin/nutch crawl urlsNewsArticles -dir crawlNewsArticles -solr http://localhost:8983/solr/core1 -depth 10 -topN 100000

bin/nutch crawl urlsPictureGalleries -dir crawlPictureGalleries -solr http://localhost:8983/solr/core0 -depth 10 -topN 100000

結果は完璧ですが、望ましくない URL パターンを除外するために、regex-urlfilter.txt ファイルでいくつかの正規表現を指定する必要がありました。これらの正規表現セットは 2 つのクロールセッションで異なるため、2 回目のクロールを実行する前に regex-urlfilter.txt ファイルを編集する必要がありました。

質問: 2 つの別個の regex-urlfilter.txt ファイルを準備し、各 /bin/nutch コマンドラインで適切なファイルを指定する方法はありますか?

2 つの URL セットとコアを使用して実験的な構成を開始したことを考慮してください。ただし、少なくとも 5 つを構成する必要があり、その間に手動で編集セッションを行わずに自動再クロールを構成する必要があります....

score 2 · Accepted Answer

複数の正規表現ファイルとメインファイルをリンクとして使用し、nutch のインデックス作成を開始する前にそれを再指定することができます

solr - Nutch 正規表現ファイルを分離してクロールし、複数の Solr コアにインデックスを付ける

1 に答える 1

Related

Reference