groovy で HTTPuilder を使用している Web ページの HTML を抽出して、次のようにする必要があります。
def http = new HTTPBuilder('http://www.google.com/search')
http.request(Method.GET) {
requestContentType = ContentType.HTML
response.success = { resp, reader ->
println "resp: " + resp
println "READER: " + reader
}
response.failure = { resp, reader ->
println "Failure"
}
}
取得した応答には、www.google.com/search の HTML ソースを調べたときに表示されるものと同じ HTML が含まれていません。実際、これは html ではなく、ページの html ソースで確認できる情報と同じものは含まれていません。さまざまなヘッダーを設定してみました (たとえば、headers.Accept = 'text/html,application/xhtml+xml,application/xml;q=0.9, / ;q=0.8', headers.Accept = 'text/html') 、ユーザーエージェントの設定など)、結果は同じです。http ビルダーを使用して www.google.com/search (または任意の Web ページ) の html を取得するにはどうすればよいですか?