0

特定のWebサイト用のWebコンテンツクローラーを作成しようとしています

http://v1000.vn/bang-xep-hang?ref=bang-xep-hang-1000-doanh-nghiep-dong-thue-thu-nhap-nhieu-nhat-2012

間もなく、(javascriptを使用して)ページを変更するリンクを見つけるためのXPathが機能せず、NullPointExecetionが発生します。XPathをさまざまな方法で変更しようとしましたが、何も機能しませんでした。

また、スクリプトの実行後に新しいページを取得するには、何らかのメソッドを実行する必要がありますか?

> package gimasys.webService;

import java.io.IOException;
import java.net.MalformedURLException;
import com.gargoylesoftware.htmlunit.BrowserVersion;
import com.gargoylesoftware.htmlunit.FailingHttpStatusCodeException;
import com.gargoylesoftware.htmlunit.ThreadedRefreshHandler;
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlAnchor;
import com.gargoylesoftware.htmlunit.html.HtmlButton;
import com.gargoylesoftware.htmlunit.html.HtmlLink;
import com.gargoylesoftware.htmlunit.html.HtmlPage;

public class Crawlv1000 {

    /**
     * @param args
     */
    public static void main(String[] args) {
        // TODO Auto-generated method stub

        final WebCrawler wc = new WebCrawler();
        final PageCrawler pc = new PageCrawler();

        final WebClient webClient = new WebClient(BrowserVersion.CHROME_16);
        webClient.setRefreshHandler(new ThreadedRefreshHandler()); // This is to allow handling the page operation using threads else an exception will pop up
        try {
            HtmlPage page = webClient.getPage("http://v1000.vn/bang-xep-hang?ref=bang-xep-hang-1000-doanh-nghiep-dong-thue-thu-nhap-nhieu-nhat-2012");
            HtmlAnchor link = page.getFirstByXPath("//a[@href='javascript:loadRankingTable(3)']");
                        link.click();
                        System.out.println(page.getTextContent());

        } catch (FailingHttpStatusCodeException | IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
        /*
        wc.crawl("http://v1000.vn/bang-xep-hang?ref=bang-xep-hang-1000-doanh-nghiep-dong-thue-thu-nhap-nhieu-nhat-2012");

        for (String url:wc.urlList)
        {
            pc.crawl(url);
        }
        */
    }
}

ありがとう、ミングエン

4

1 に答える 1

0

親愛なる、セミコロンの間違いによって行われた非常に小さな間違い

HtmlAnchor link = page.getFirstByXPath("//a[@href='javascript:loadRankingTable(3);']");
link.click();
于 2013-02-27T11:13:51.473 に答える