ApacheNutch2.1でいくつかのサイトをクロールします。
クロール中に、多くのページに次のメッセージが表示されます
。http://www.domainname.com/news/subcategory/111111/index.htmlをスキップします; 異なるバッチID(null)。
このエラーの原因は何ですか?
バッチID(null)が異なるページはデータベースに保存されないため、この問題を解決するにはどうすればよいですか。
私がクロールしたサイトはdrupalに基づいていますが、他の多くの非drupalサイトを試しました。