java - Java で Web サイトからコンテンツを取得する

Question

このウェブサイトのすべてのコンテンツを取得したいhttp://globoesporte.globo.com/temporeal/futebol/20-10-2013/botafogo-vasco/

特に、「統計」と呼ばれる画面の右下にある要素

FireBug をダウンロードし、jsoup を使用して HTML ファイルを取得しようとしましたが、うまくいきませんでした。Jsoup は私が欲しかったコンテンツを見つけることができず、少しイライラしました。ウェブサイトからデータ全体を取得するために使用するテクニック/API、または何でも使用する必要があることを確認してください。助けていただければ幸いです。

前もって感謝します。

score 0 · Accepted Answer

そのためには、jsoup や HTML パーサーなどの html パーサーを調べる必要があります。HTMLタグを含むすべてのコードが必要な場合は、このコードも試してください

URL url = new URL("http://www.example.com");
InputStream io = url.openStream();
BufferedReader br = new BufferedReader(new InputStreamReader(io));
String str ="";
while((str=br.readLine())!=null)
{
System.out.println(str);
}

score 0 · Accepted Answer

Web サイトをクロールする場合はHttpClient、ほぼすべての HTTP プロトコル操作を提供できるを使用できます。これは、あなたが望むものに合うかもしれないコードスニペットです:

HttpClient httpclient = new DefaultHttpClient();
HttpGet httpget = new HttpGet("http://globoesporte.globo.com/temporeal/futebol/20-10-2013/botafogo-vasco/");
HttpResponse response = httpclient.execute(httpget);
HttpEntity entity = response.getEntity();
if (entity != null) {
    InputStream instream = entity.getContent();
    try {
        // do something useful
    } finally {
        instream.close();
    }
}

PS Maven for HttpClient:

<dependency>
    <groupId>commons-httpclient</groupId>
    <artifactId>commons-httpclient</artifactId>
    <version>3.1</version>
</dependency>

それが役に立てば幸い：）

java - Java で Web サイトからコンテンツを取得する

3 に答える 3

Related

Reference