1

ヘッダーにエンコーディングが定義されていないページを解析しようとしています.HTMLでは、ISO-8859-1をエンコーディングとして定義しています。Jsoup はデフォルト設定ではそれを解析できません (また、HTMLunit と PHP の Simple HTML Dom Parser もデフォルトでは処理できません)。Jsoup のエンコーディングを自分で定義しても、まだ機能しません。理由がわかりません。

これが私のコードです:

    String url = "http://www.parkett.de";
    Document doc = null;
    try {
         doc = Jsoup.parse(new URL(url).openStream(), "ISO-8859-1", url);
        // doc = Jsoup.parse(new URL(url).openStream(), "CP1252", url);
    } catch (IOException e1) {
        // TODO Auto-generated catch block
        e1.printStackTrace();
    }

    Element extractHtml = null;
    Elements elements = null;
    String title = null;
    elements = doc.select("h1");
    if(!elements.isEmpty()) {
        extractHtml = elements.get(0);
        title = extractHtml.text();
    }
    System.out.println(title);

ご提案ありがとうございます。

4

1 に答える 1