私は次のようにJavaでWebページをダウンロードしようとしています:
URL url = new URL("www.jksfljasdlfas.com");
FIle to = new File("/home/test/test.html");
Reader in = new InputStreamReader(url.openStream(), "UTF-8");
Writer out = new OutputStreamWriter(new FileOutputStream(to), "UTF-8");
int c;
while((c = in.read()) != -1){
out.write(c);
}
in.close();
out.close();
ページをダウンロードすると、一部の文字がエンティティに置き換えられます。
これ:これ
<a href="http://www.generation276.org/film/?m=200812&paged=2" >Pagina successiva »</a>
になります:
<a href="http://www.generation276.org/film/?m=200812&paged=2" >Pagina successiva »</a>
Chromeで同じページをダウンロードすると、&は&のままになります。
私はCharset/encodingの初心者です。誰かがプローブを理解できますか?