0

Nutch を使用して 2 つの異なるドメインをクロールしている 2 つの異なるマシンがあるとします。

次に、crawldb を 1 つにマージしたいと思います。どうやってやるの ?

私はそれについてどこかで読みました-コマンドは:

bin/nutch mergedb <crawldb1> <crawldb2>

私が何をするつもりですか?

また、これらのcrawldbの1つが、ローカルでホストされているWebサイトのサイトによって生成されているとしましょう。つまり、wikipediaがそれ自体をクロールし、それをcrawldb1として保存したとします。

他のサイトでは、stackoverflowも同じことをしたと言えます。

この場合、これら2つのcrawldbを1つにマージできますが、相対URLではなく実際のURLを反映するようにこれらを変更します(データベースの新しい場所に関するURLを意味します)。

説明がわかりにくかったらすみません。前もって感謝します

4

2 に答える 2