solr - Nutch - クローラーがページ分割されたコンテンツの次のページをたどらない

Question

次のコマンドを使用して、nutch 1.6 を使用して、1 ページあたり 20 個の製品を含むページ分割された Web ページをクロールしています。

./nutch crawl urls -dir <dir> -depth 4 -topN 100 -threads 100

最初の 20 個の製品と次のページへのリンクを取得しています。しかし、クローラーが次のページのリンクをたどらないのですか? パラメータがありませんか?

score 0 · Accepted Answer

regex-urlfilter は、クエリ文字列パラメーターを持つ URL をブロックします。

# 可能性のあるクエリとして特定の文字を含む URL をスキップするなど。

-[?*!@=]

そのファイルを変更して、クエリ文字列パラメーターを含む URL がクロールされるようにします。

# 可能性のあるクエリとして特定の文字を含む URL をスキップするなど。

-[*!@]

2 に答える 2