Google から返されたページのリストから HTML テキストを取得しようとしています。それらのほとんどは正常に動作しますが、https://www.google.com/patents/US6034687などの URL では常に 401 エラーが発生します。以下を参照してください。
Server returned HTTP response code: 401 for URL: https://www.google.com/patents/US6034687
私は Java を使用しており、このエラー コードを調べました。認証に関連しているようですが、この種の URL は、ログインを要求することなく、任意のブラウザーからアクセスできます。だから私は混乱しています.なぜこの種のURLだけが私にはうまくいかないのですか. これがhtmlを取得するための私のコードです
URL u=new URL(url);
StringBuilder html =new StringBuilder();
HttpURLConnection conn = (HttpURLConnection) u.openConnection();
conn.setRequestMethod("GET");
conn.setRequestProperty("Accept", "text/html");
BufferedReader br;
try {
br = new BufferedReader(new InputStreamReader((conn.getInputStream())));
String out="";
while ((out= br.readLine()) != null) {
// System.out.println(out);
html.append(out+"\n");
}
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
何か案が?
ありがとう