Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
私はnutch1.3でサイトをクロールします。今、crawldbからURLを削除したいのですが、どうすればよいですか?クロールdbからどのように読み取るのですか?クロールdbに存在するURLを見たいのですが。
CrawlDb から読み取るには、CrawlDBReader クラス (org.apache.nutch.crawl パッケージ) を使用できます。"-filter" オプションを指定して CrawlDBMerger クラス (org.apache.nutch.crawl パッケージ) を使用してみてください。ただし、必要に応じて URL を削除する Mapreduce を作成することをお勧めします。