0

私が望むプログラムを作成しようとしています.URLにアクセスしたとき、またはウェブサイトと言うことができるとき、そのウェブサイトのすべてのコンテンツが私に読まれています. これには URL クラスを使用しています。

これが私のコードです..

 import java.net.*;
 import java.io.*;
 public class URLConnectionReader 
 {
 public static void main(String[] args) throws Exception 
{
     URL oracle = new URL("http://www.oracle.com/index.html");
     URLConnection yc = oracle.openConnection();

    BufferedReader in = new BufferedReader(new InputStreamReader(yc.getInputStream()));
    String inputLine;
    while ((inputLine = in.readLine()) != null)

    System.out.println(inputLine);

    in.close();
}
}

しかし、それに応じて、ビューページのソースのコンテンツが表示されます。すべてではなく、Webページのコンテンツのみが必要です。これどうやってするの?

4

2 に答える 2

1

次に、受け取った HTML を HTML パーサー ( jsoupなど)を使用して解析します。

于 2012-05-04T12:10:27.070 に答える
0

ウェブページの内容 == ページのソース。ブラウザは html を分析し、人間の目で視覚化します。本文のみが必要な場合は、jsoup を使用できます。

String text = Jsoup.parse(html).body().text();

しかし、必要なコンテンツではないコマーシャル、メニュー、その他のテキストも表示されます。

于 2012-05-04T12:59:19.997 に答える