私はこのコードを持っています:
DocumentBuilderFactory builderFactory =
DocumentBuilderFactory.newInstance();
DocumentBuilder builder = null;
try {
builder = builderFactory.newDocumentBuilder();
} catch (ParserConfigurationException e) {
e.printStackTrace();
}
Document document = null;
try {
URL url = new URL("http://en.wikipedia.org/wiki/Charlie_Chaplin");
//Reader reader = new InputStreamReader(url.openStream(),"UTF-8");
document = builder.parse(url.openStream());
} catch (SAXException e) {
e.printStackTrace();
return;
} catch (IOException e) {
e.printStackTrace();
return;
}
処理しようとしたページで、次の例外が発生しました。
com.sun.org.apache.xerces.internal.impl.io.MalformedByteSequenceException: 1 バイト UTF-8 シーケンスのバイト 1 が無効です。
ページを UTF-8 に変更するにはどうすればよいですか? または、これを解決できる他の方法はありますか?