java - Web クローラー経由で保管された .lck および jdb ファイルへのアクセス

Question

私は現在、選択したウェブクローラーとしてcrawler4jを使用しており、ウェブクローラーがどのように機能するかを独学しようとしています. クロールを開始しましたが、クロールされたデータがクロールストレージフォルダー (/data/crawl/root) にすぐに返されることを期待していました。

public class Controller {

    public static void main(String[] args) throws Exception {


            /*
             * crawlStorageFolder is a folder where intermediate crawl data is
             * stored.
             */
            String crawlStorageFolder =  "/data/crawl/root";


            /*
             * numberOfCrawlers shows the number of concurrent threads that should
             * be initiated for crawling.
             */
            int numberOfCrawlers = 7;



            CrawlConfig config = new CrawlConfig();

            config.setCrawlStorageFolder(crawlStorageFolder);

問題は、私が見つけた唯一の情報は、データが保存されている場所であると想定しているcrawlStorageFolderの場所にある2つの.lckファイルと1つの.jdbファイルですが、それらを開くこともできません。データにアクセスする方法を理解できるように、誰かが親切に教えてくれますか? それは大歓迎です。

score 0 · Accepted Answer

Crawler4j はBerkeleyDBを使用してクロール情報を保存します。ソースはこちらをご覧ください。

コマンドラインから DB utils を使用してデータにアクセスできます。SO hereですでにカバーされています。

Java コードでデータにアクセスする場合は、BerkeleyDB ライブラリ (そこにあるMaven 命令) をインポートし、DB を開く方法に関するチュートリアルに従ってください。

java - Web クローラー経由で保管された .lck および jdb ファイルへのアクセス

2 に答える 2

Related

Reference