Apache Nutch 2.1 でいくつかのサイトをクロールしています。
クロール中に、多くのページで次のメッセージが表示されます。http://videos.arte.tv/fr/videos/x-enius--7453284.htmlをスキップします。異なるバッチ ID (null)
このエラーの原因は何ですか? フェーズを解析中です...どうすればこの問題を解決できますか?HBaseを使用してページを保存します。
regex-urlfilter.txt の私の URL は次のようになります
- +^http://([a-z0-9]*.)*videos.arte.tv/
- +^http://([a-z0-9]*.)*rbb-online.de/
しかし、私も同じ効果で試しました
編集:バグのようなメーリングリストのメンテナーによって追跡に追加されました。ここで読むことができます#a4059636