0

私は現在、選択したウェブクローラーとしてcrawler4jを使用しており、ウェブクローラーがどのように機能するかを独学しようとしています. クロールを開始しましたが、クロールされたデータがクロール ストレージ フォルダー (/data/crawl/root) にすぐに返されることを期待していました。

public class Controller {

    public static void main(String[] args) throws Exception {


            /*
             * crawlStorageFolder is a folder where intermediate crawl data is
             * stored.
             */
            String crawlStorageFolder =  "/data/crawl/root";


            /*
             * numberOfCrawlers shows the number of concurrent threads that should
             * be initiated for crawling.
             */
            int numberOfCrawlers = 7;



            CrawlConfig config = new CrawlConfig();

            config.setCrawlStorageFolder(crawlStorageFolder);

問題は、私が見つけた唯一の情報は、データが保存されている場所であると想定しているcrawlStorageFolderの場所にある2つの.lckファイルと1つの.jdbファイルですが、それらを開くこともできません。データにアクセスする方法を理解できるように、誰かが親切に教えてくれますか? それは大歓迎です。

4

2 に答える 2

0

Crawler4j はBerkeleyDBを使用してクロール情報を保存します。ソースはこちらをご覧ください。

コマンドラインから DB utils を使用してデータにアクセスできます。SO hereですでにカバーされています。

Java コードでデータにアクセスする場合は、BerkeleyDB ライブラリ (そこにあるMaven 命令) をインポートし、DB を開く方法に関するチュートリアルに従ってください。

于 2013-03-29T14:23:50.490 に答える