solr - Nutch Crawldb のダンプ

Question

ステータス 3 (db_gone) のすべての URL の Nutch crawldb のダンプを取得するにはどうすればよいですか。私が使用している Nutch のバージョンは 1.4 です。

wiki見たけどやり方わからん

score 2 · Accepted Answer

Nutch 1.4 の CrawlDbReader は、ドキュメントのステータスに基づいて、crawldb のダンプを生成しません。Nutch の 1.5 以降のバージョンでは、crawldb の読み取り中にドキュメントのステータスを指定でき、readdb は指定されたステータスのドキュメントのダンプを生成します。

[root@srchengn nutch]# bin/nutch readdb <path_crawldb> -dump <output_directory> -status db_gone

Nutch 1.4 で同じことをしたい場合は、org.apache.nutch.crawl.CrawlDbReaderクラスを変更する必要があります。

solr - Nutch Crawldb のダンプ

1 に答える 1

Related

Reference