crawler4j
特定のプレフィックスを持つ特定の URL でクロールしたいと思います。
たとえば、URL がそれで始まるhttp://url1.com/timer/image
場合は有効です。例: http://url1.com/timer/image/text.php
.
この URL は無効です:http://test1.com/timer/image
私はそれを次のように実装しようとしました:
public boolean shouldVisit(Page page, WebURL url) {
String href = url.getURL().toLowerCase();
String adrs1 = "http://url1.com/timer/image";
String adrs2 = "http://url2.com/house/image";
if (!(href.startsWith(adrs1)) || !(href.startsWith(adrs2))) {
return false;
}
if (filters.matcher(href).matches()) {
return false;
}
for (String crawlDomain : myCrawlDomains) {
if (href.startsWith(crawlDomain)) {
return true;
}
}
return false;
}
ただし、クローラーは他の URL にもアクセスするため、これは機能していないようです。
私ができることは何ですか?
あなたの答えに感謝します!