nutch - 見つかったページの外部リンクをどのようにクロールしますか?

Question

彼らのwikiからnutchをインストールする例を使用しました。dmoz からプルした複数のページを簡単にクロールできました。しかし、ページ上で見つけた外部リンクをクロールしたり、それらの外部リンクを次にクロールするファイルに書き込んだりするために実行できる構成はありますか?

ページ上のリンクをたどってそのページをインデックスに登録する最良の方法は何ですか? Python 経由で bin/nutch を実行していた場合、見つかったすべての外部リンクを取得し、新しいクロールリストを作成して再度実行することはできますか? あなたならどうしますか？

score 3 · Accepted Answer

まず、パラメーター「db.ignore.external.links」が false に設定されていることを確認します。また、「regex-urlfilter.txt」ファイルで、クロールする外部リンクのルールを追加するか+.、最後のルールとして追加します。この+.ルールにより、クローラーはすべてのリンクをたどります。最後のオプションを使用する場合は、すべての Web をクロールする危険があることに注意してください。

nutch - 見つかったページの外部リンクをどのようにクロールしますか?

1 に答える 1

Related

Reference