java - 部分ページをフェッチするJsoup

翻译自：https://stackoverflow.com/questions/6368045 2011-06-16T06:43:57.190

1987 次

入札 Web サイトのコンテンツをスクレイピングしようとしていますが、Web サイトの完全なページを取得できません。xulrunner で crowbar を使用して最初にページをフェッチし (ajax が特定の要素を遅延してロードするため)、次にファイルからスクレイピングしています。しかし、Bidrivals Web サイトのメインページでは、ローカルファイルが適切な形式であっても、これは失敗します。jSoup は、html コードの途中で「...」文字で終わっているようです。誰かが以前にこれに遭遇した場合は、助けてください。次のコードは [このリンク] で呼び出されます。

File f = new File(projectLocation+logFile+"bidrivalsHome");
    try {
        f.createNewFile();
        log.warn("Trying to fetch mainpage through a console.");
        WinRedirect.redirect(projectLocation+"Curl.exe -s --data \"url="+website+"&delay="+timeDelay+"\" http://127.0.0.1:10000", projectLocation, logFile+"bidrivalsHome");
    } catch (Exception e) {
        e.printStackTrace();
        log.warn("Error in fetching the nameList", e);
    }
    Document doc = new Document("");
    try {
        doc = Jsoup.parse(f, "UTF-8", website);
    } catch (IOException e1) {
        System.out.println("Error while parsing the document.");
        e1.printStackTrace();
        log.warn("Error in parsing homepage", e1);
    }

java - 部分ページをフェッチするJsoup

1 に答える 1

Related

Reference