Nutch を使用して 2 つの異なるドメインをクロールしている 2 つの異なるマシンがあるとします。
次に、crawldb を 1 つにマージしたいと思います。どうやってやるの ?
私はそれについてどこかで読みました-コマンドは:
bin/nutch mergedb <crawldb1> <crawldb2>
私が何をするつもりですか?
また、これらのcrawldbの1つが、ローカルでホストされているWebサイトのサイトによって生成されているとしましょう。つまり、wikipediaがそれ自体をクロールし、それをcrawldb1として保存したとします。
他のサイトでは、stackoverflowも同じことをしたと言えます。
この場合、これら2つのcrawldbを1つにマージできますが、相対URLではなく実際のURLを反映するようにこれらを変更します(データベースの新しい場所に関するURLを意味します)。
説明がわかりにくかったらすみません。前もって感謝します