java - Javaを使用して適切なエンコーディングでHTMLページを取得するにはどうすればよいですか？

Question

ページのエンコーディングでHTMLページを含むHTTPストリームを読み取るにはどうすればよいですか？

これは、HTTPストリームを取得するために使用するコードフラグメントです。InputStreamReaderにはencodingオプションの引数がありますが、それを取得する方法についてはわかりません。

URLConnection conn = url.openConnection();
InputStream is = conn.getInputStream();
BufferedReader d = new BufferedReader(new InputStreamReader(is));

score 4 · Accepted Answer

Webページの取得は、かなり複雑なプロセスです。そのため、 HttpClientなどのライブラリが存在します。私のアドバイスは、他に本当に説得力のある理由がない限り、HttpClientを使用することです。

score 3 · Accepted Answer

接続が確立されたとき

URLConnection conn = url.openConnection（）;

url.getContentEncoding（）を介してエンコードメソッド名を取得できるため、この文字列をInputStreamReader（）に渡して、コードが次のようになるようにします。

BufferedReader d = new BufferedReader（new InputStreamReader（is、url.getContentEncoding（）））;

score 1 · Accepted Answer

簡単な答えはURLConnection.getContentEncoding（）です。正しい答えは、cletusが提案していることです。やむを得ない理由がない限り、適切なサードパーティのライブラリを使用してください。

score 0 · Accepted Answer

私は最近解決すべき非常によく似た問題を抱えていました。他の回答と同様に、私もHttpClientなどで遊んでいました。ただし、これらのライブラリでは、ダウンロードするファイルのエンコーディングを事前に知っている必要があります。そうしないと、取得したHTMLファイルを変換すると、判読できない文字になります。

HTMLファイルのエンコーディングはHTMLファイル自体でのみ指定されているため、このアプローチは機能しません。HTMLのバージョンに応じて、エンコーディングはXMLヘッダー、2つの異なるヘッドメタタグ要素など、さまざまな方法で指定されます。このアプローチに従う場合は、次のことを行う必要があります。

ファイルをダウンロードし、コンテンツを見て、HTMLコンテンツを解析してエンコーディングを理解します。
ファイルをもう一度ダウンロードして、適切なエンコーディングを指定します。

特に、適切なエンコーディング文字列のためにHTMLコンテンツを解析すると、エラーが発生しやすくなります。代わりに、 JSoupのようなライブラリに依存することをお勧めします。JSoupがその役割を果たします。したがって、httpclientを介してファイルをダウンロードする代わりに、JSoupを使用してファイルを取得してください。さらに、JSoupは、HTMLページのさまざまな部分（ページタイトルなど）に直接アクセスするための優れたAPIを提供します。

java - Javaを使用して適切なエンコーディングでHTMLページを取得するにはどうすればよいですか？

4 に答える 4

Related

Reference