彼らのwikiからnutchをインストールする例を使用しました。dmoz からプルした複数のページを簡単にクロールできました。しかし、ページ上で見つけた外部リンクをクロールしたり、それらの外部リンクを次にクロールするファイルに書き込んだりするために実行できる構成はありますか?
ページ上のリンクをたどってそのページをインデックスに登録する最良の方法は何ですか? Python 経由で bin/nutch を実行していた場合、見つかったすべての外部リンクを取得し、新しいクロール リストを作成して再度実行することはできますか? あなたならどうしますか?