2

彼らのwikiからnutchをインストールする例を使用しました。dmoz からプルした複数のページを簡単にクロールできました。しかし、ページ上で見つけた外部リンクをクロールしたり、それらの外部リンクを次にクロールするファイルに書き込んだりするために実行できる構成はありますか?

ページ上のリンクをたどってそのページをインデックスに登録する最良の方法は何ですか? Python 経由で bin/nutch を実行していた場合、見つかったすべての外部リンクを取得し、新しいクロール リストを作成して再度実行することはできますか? あなたならどうしますか?

4

1 に答える 1

3

まず、パラメーター「db.ignore.external.links」が false に設定されていることを確認します。また、「regex-urlfilter.txt」ファイルで、クロールする外部リンクのルールを追加するか+.、最後のルールとして追加します。この+.ルールにより、クローラーはすべてのリンクをたどります。最後のオプションを使用する場合は、すべての Web をクロールする危険があることに注意してください。

于 2010-10-27T12:43:42.957 に答える