19

任意のページのHTMLダンプを解析しようとしています。HTMLパーサーを使用し、解析にはJSoupも試しました。

Jsoupで便利な関数を見つけましたが、呼び出し中に403エラーが発生しますDocument doc = Jsoup.connect(url).get();

htmlダンプを取得するためにHTTPClientを試しましたが、同じURLで成功しました。

JSoupがコモンズhttpクライアントからコンテンツを提供しているのと同じURLに403を提供しているのはなぜですか?私は何か間違ったことをしていますか?何かご意見は?

4

1 に答える 1

47

実用的な解決策は次のとおりです(解決策としてそれを置くことを思い出させてくれたAngelo Neuschitzerに感謝します):

Document doc = Jsoup.connect(url).userAgent("Mozilla").get();
Elements links = doc.getElementsByTag(HTML.Tag.CITE.toString);
for (Element link : links) {
            String linkText = link.text();
            System.out.println(linkText);
}

したがって、userAgentはトリックを行います:)

于 2012-04-13T07:12:50.087 に答える