私は Apache Nutch 1.7 を使用していますが、URL http://www.ebay.com/sch/allcategories/all-categories/?_rdc=1をシード URL として使用してクロールすると、この問題に直面しています。この URL には多くの内部リンクがあります。ページに存在し、他のドメインへの外部リンクも多数あります。私は内部リンクにのみ興味があります。
ただし、このページがクロールされると、そのページ内の内部リンクは、次のフェッチ ラウンドでフェッチするために追加されません (深さ 100 を指定しました)。既に db.ignore.internal.links を false に設定していますが、何らかの理由で内部リンクがフェッチ リストの次のラウンドに追加されません。
一方、db.ignore.external.links を false に設定すると、ページからすべての外部リンクが正しく取得されます。
この問題は他のドメインには見られません。この特定のページで何が起きているのか教えてもらえますか?
レビュー用に使用している nucth-site.xml も添付しました。アドバイスをお願いします。