8

ApacheNutch2.1でいくつかのサイトをクロールします。

クロール中に、多くのページに次のメッセージが表示されます
http://www.domainname.com/news/subcategory/111111/index.htmlをスキップします; 異なるバッチID(null)。

このエラーの原因は何ですか?
バッチID(null)が異なるページはデータベースに保存されないため、この問題を解決するにはどうすればよいですか。

私がクロールしたサイトはdrupalに基づいていますが、他の多くの非drupalサイトを試しました。

4

1 に答える 1

1

メッセージは問題ないと思います。すべての URL に batch_id が割り当てられていません。したがって、batch_id が null の場合は、url をスキップします。URL に batch_id が割り当てられたときに URL を生成します。

于 2013-04-18T09:37:16.853 に答える