Webクロール用のApache Nutchをインストールしました。次のような Web サイトをクロールしたいと考えていますrobots.txt
。
User-Agent: *
Disallow: /
Apache Nutch でこの Web サイトをクロールする方法はありますか?
Webクロール用のApache Nutchをインストールしました。次のような Web サイトをクロールしたいと考えていますrobots.txt
。
User-Agent: *
Disallow: /
Apache Nutch でこの Web サイトをクロールする方法はありますか?
nutch-site.xmlでプロパティ「Protocol.CHECK_ROBOTS」をfalseに設定して、robots.txtを無視することができます。
nutch-site.xml で、protocol.plugin.check.robots を false に設定します。
また
ロボット チェックが行われるコードをコメント アウトすることができます。Fetcher.java では、605 行目から 614 行目でチェックを行っています。そのブロック全体にコメントする
if (!rules.isAllowed(fit.u)) {
// unblock
fetchQueues.finishFetchItem(fit, true);
if (LOG.isDebugEnabled()) {
LOG.debug("Denied by robots.txt: " + fit.url);
}
output(fit.url, fit.datum, null, ProtocolStatus.STATUS_ROBOTS_DENIED, CrawlDatum.STATUS_FETCH_GONE);
reporter.incrCounter("FetcherStatus", "robots_denied", 1);
continue;
}