1

Apache Nutch 2.1 でいくつかのサイトをクロールしています。

クロール中に、多くのページで次のメッセージが表示されます。http://videos.arte.tv/fr/videos/x-enius--7453284.htmlをスキップします。異なるバッチ ID (null)

このエラーの原因は何ですか? フェーズを解析中です...どうすればこの問題を解決できますか?HBaseを使用してページを保存します。

regex-urlfilter.txt の私の URL は次のようになります

  • +^http://([a-z0-9]*.)*videos.arte.tv/
  • +^http://([a-z0-9]*.)*rbb-online.de/

しかし、私も同じ効果で試しました

編集:バグのようなメーリングリストのメンテナーによって追跡に追加されました。ここで読むことができます#a4059636

4

1 に答える 1

0

メッセージは問題ないと思います。すべての URL に batch_id が割り当てられていません。したがって、batch_id が null の場合は、url をスキップします。URL に batch_id が割り当てられたときに URL を生成します。

ここに同様の質問があります。

于 2013-04-27T23:23:49.900 に答える