nutch - nutch 1.3のcrawldbからURLを削除しますか？

Question

私はnutch1.3でサイトをクロールします。今、crawldbからURLを削除したいのですが、どうすればよいですか？クロールdbからどのように読み取るのですか？クロールdbに存在するURLを見たいのですが。

score 0 · Accepted Answer

CrawlDb から読み取るには、CrawlDBReader クラス (org.apache.nutch.crawl パッケージ) を使用できます。"-filter" オプションを指定して CrawlDBMerger クラス (org.apache.nutch.crawl パッケージ) を使用してみてください。ただし、必要に応じて URL を削除する Mapreduce を作成することをお勧めします。

nutch - nutch 1.3のcrawldbからURLを削除しますか？

1 に答える 1

Related

Reference