html-content-extraction - HTTPBuilder - Web ページの HTML コンテンツを取得するにはどうすればよいですか?

Question

groovy で HTTPuilder を使用している Web ページの HTML を抽出して、次のようにする必要があります。

def http = new HTTPBuilder('http://www.google.com/search')
http.request(Method.GET) {
 requestContentType = ContentType.HTML
 response.success = { resp, reader ->
  println "resp: " + resp
  println "READER: " + reader
 }
 response.failure = { resp, reader ->
  println "Failure"
 }
}

取得した応答には、www.google.com/search の HTML ソースを調べたときに表示されるものと同じ HTML が含まれていません。実際、これは html ではなく、ページの html ソースで確認できる情報と同じものは含まれていません。さまざまなヘッダーを設定してみました (たとえば、headers.Accept = 'text/html,application/xhtml+xml,application/xml;q=0.9, / ;q=0.8', headers.Accept = 'text/html') 、ユーザーエージェントの設定など)、結果は同じです。http ビルダーを使用して www.google.com/search (または任意の Web ページ) の html を取得するにはどうすればよいですか?

score 0 · Accepted Answer

httpBuilder を使用する理由代わりに使用することもできます

def url = "http://www.google.com/".toURL() 

println url.text`

ウェブページのコンテンツを抽出する

score 0 · Accepted Answer

httpbuilder はコンテンツタイプによって結果を自動解析するためです。生のhtmlを取得するには、エンティティからテキストを取得してみてください

def htmlResult = http.get(uri: url, contentType: TEXT){ resp->
    return resp.getEntity().getContent().getText()
}

html-content-extraction - HTTPBuilder - Web ページの HTML コンテンツを取得するにはどうすればよいですか?

2 に答える 2

Related

Reference