crawler4j - URLがcrawler4jで404または301であるかどうかを取得する方法

Question

URLがcrawler4jで404または301であるかどうかを取得することは可能ですか?

@Override
    public void visit(Page page) {
        String url = page.getWebURL().getURL();
        System.out.println("URL: " + url);

        if (page.getParseData() instanceof HtmlParseData) {
            HtmlParseData htmlParseData = (HtmlParseData) page.getParseData();
            String text = htmlParseData.getText();
            String html = htmlParseData.getHtml();
            List<WebURL> links = htmlParseData.getOutgoingUrls();

            System.out.println("Text length: " + text.length());
            System.out.println("Html length: " + html.length());
            System.out.println("Number of outgoing links: " + links.size());
        }
    }

クローラーコードでこれを使用しています。誰か教えてもらえますか?

score 2 · Accepted Answer

Crawler4j バージョン 3.3 (2012 年 2 月リリース) - 取得したページの http ステータスコードの処理をサポートする Crawler4j。

StatusHandlerCrawlerExample にアクセスするには、クリックします。

また、Jsoup (最高の DOM、CSS、jquery を備えた Java HTML パーサー) を使用してページを解析することもできます。ここに例があります- 指定された URL からページをダウンロードし、ページのステータスコードを取得する方法を示します。クロールには Crawler4j を使用し、ページのフェッチには Jsoup を使用する必要があると思います。

crawler4j - URLがcrawler4jで404または301であるかどうかを取得する方法

1 に答える 1

Related

Reference