0

私はnutch1.3でサイトをクロールします。今、crawldbからURLを削除したいのですが、どうすればよいですか?クロールdbからどのように読み取るのですか?クロールdbに存在するURLを見たいのですが。

4

1 に答える 1

0

CrawlDb から読み取るには、CrawlDBReader クラス (org.apache.nutch.crawl パッケージ) を使用できます。"-filter" オプションを指定して CrawlDBMerger クラス (org.apache.nutch.crawl パッケージ) を使用してみてください。ただし、必要に応じて URL を削除する Mapreduce を作成することをお勧めします。

于 2011-11-15T05:44:02.170 に答える