0

次のコマンドを使用して、nutch 1.6 を使用して、1 ページあたり 20 個の製品を含むページ分割された Web ページをクロールしています。

./nutch crawl urls -dir <dir> -depth 4 -topN 100 -threads 100

最初の 20 個の製品と次のページへのリンクを取得しています。しかし、クローラーが次のページのリンクをたどらないのですか? パラメータがありませんか?

4

2 に答える 2

0

regex-urlfilter は、クエリ文字列パラメーターを持つ URL をブロックします。

# 可能性のあるクエリとして特定の文字を含む URL をスキップするなど。

-[?*!@=]

そのファイルを変更して、クエリ文字列パラメーターを含む URL がクロールされるようにします。

# 可能性のあるクエリとして特定の文字を含む URL をスキップするなど。

-[*!@]

于 2013-06-16T17:00:23.307 に答える