1

私は Apache Nutch 1.7 を使用していますが、URL http://www.ebay.com/sch/allcategories/all-categories/?_rdc=1をシード URL として使用してクロールすると、この問題に直面しています。この URL には多くの内部リンクがあります。ページに存在し、他のドメインへの外部リンクも多数あります。私は内部リンクにのみ興味があります。

ただし、このページがクロールされると、そのページ内の内部リンクは、次のフェッチ ラウンドでフェッチするために追加されません (深さ 100 を指定しました)。既に db.ignore.internal.links を false に設定していますが、何らかの理由で内部リンクがフェッチ リストの次のラウンドに追加されません。

一方、db.ignore.external.links を false に設定すると、ページからすべての外部リンクが正しく取得されます。

この問題は他のドメインには見られません。この特定のページで何が起きているのか教えてもらえますか?

レビュー用に使用している nucth-site.xml も添付しました。アドバイスをお願いします。

4

1 に答える 1

3

シード URL はデフォルトのフィルターによって無視されているため、ページはクロールされていません。

次のファイルを編集します。

conf/automaton-urlfilter.txt

conf/regex-urlfilter.txt

交換

# skip URLs containing certain characters as probable queries, etc.
-.*[?*!@=].*

# skip URLs containing certain characters as probable queries, etc.
-.*[*!@].*
于 2013-10-16T21:56:50.263 に答える