java - JSoup.connectは、apache.httpclientがコンテンツをフェッチできるときに403エラーをスローします

Question

任意のページのHTMLダンプを解析しようとしています。HTMLパーサーを使用し、解析にはJSoupも試しました。

Jsoupで便利な関数を見つけましたが、呼び出し中に403エラーが発生しますDocument doc = Jsoup.connect(url).get();

htmlダンプを取得するためにHTTPClientを試しましたが、同じURLで成功しました。

JSoupがコモンズhttpクライアントからコンテンツを提供しているのと同じURLに403を提供しているのはなぜですか？私は何か間違ったことをしていますか？何かご意見は？

score 47 · Accepted Answer

実用的な解決策は次のとおりです（解決策としてそれを置くことを思い出させてくれたAngelo Neuschitzerに感謝します）：

Document doc = Jsoup.connect(url).userAgent("Mozilla").get();
Elements links = doc.getElementsByTag(HTML.Tag.CITE.toString);
for (Element link : links) {
            String linkText = link.text();
            System.out.println(linkText);
}

したがって、userAgentはトリックを行います:)

java - JSoup.connectは、apache.httpclientがコンテンツをフェッチできるときに403エラーをスローします

1 に答える 1

Related

Reference