ヘッダーにエンコーディングが定義されていないページを解析しようとしています.HTMLでは、ISO-8859-1をエンコーディングとして定義しています。Jsoup はデフォルト設定ではそれを解析できません (また、HTMLunit と PHP の Simple HTML Dom Parser もデフォルトでは処理できません)。Jsoup のエンコーディングを自分で定義しても、まだ機能しません。理由がわかりません。
これが私のコードです:
String url = "http://www.parkett.de";
Document doc = null;
try {
doc = Jsoup.parse(new URL(url).openStream(), "ISO-8859-1", url);
// doc = Jsoup.parse(new URL(url).openStream(), "CP1252", url);
} catch (IOException e1) {
// TODO Auto-generated catch block
e1.printStackTrace();
}
Element extractHtml = null;
Elements elements = null;
String title = null;
elements = doc.select("h1");
if(!elements.isEmpty()) {
extractHtml = elements.get(0);
title = extractHtml.text();
}
System.out.println(title);
ご提案ありがとうございます。