0

私はNutchを初めて使用し、特定のクロールを実行するようにしています。つまり、最初に1つの特定のドメイン(ウィキペディアなど)で3レベルの深さまで実行したいのですが、その部分はregex-urlfilterファイルを変更することで実現できます。 。

しかし、それから私はそれが以前にフェッチしたすべての外部リンクをクロールし始めたいのですが、1レベルの深さだけです。

だから、私の質問は、最初の実行からクロールされたリンクのリストを取得して、2番目のクロールのシードとして使用できるようにする方法はありますか?

4

1 に答える 1

2

次のコマンドを使用して、クロールされたURLのリストを取得できます。

bin/nutch readdb crawl/crawldb -dump file

次に、そのコマンドからの出力を使用してurls/seed.txtファイルを手動で編集できます。

于 2013-03-29T21:25:10.350 に答える