私はNutchを初めて使用し、特定のクロールを実行するようにしています。つまり、最初に1つの特定のドメイン(ウィキペディアなど)で3レベルの深さまで実行したいのですが、その部分はregex-urlfilterファイルを変更することで実現できます。 。
しかし、それから私はそれが以前にフェッチしたすべての外部リンクをクロールし始めたいのですが、1レベルの深さだけです。
だから、私の質問は、最初の実行からクロールされたリンクのリストを取得して、2番目のクロールのシードとして使用できるようにする方法はありますか?