次の Web サイトからデータを取得できません。ブラウザ経由で long_url にアクセスすると、スクレイピングしたいテーブルが表示されますが、httr を使用して R 内から URL を呼び出すと、データが返されないか、方法がわかりません。それは私に返されています。
base_url <- "http://web1.ncaa.org/stats/exec/records"
long_url <- "http://web1.ncaa.org/stats/exec/records?academicYear=2014&sportCode=MFB&orgId=721"
library(XML)
library(httr)
library(rvest) # devtools::install_github("hadley/rvest")
これらの POST リクエストの結果は、私には同じように見えます。
doc <- POST(base_url, query = list(academicYear = "2014", sportCode = "MFB",
orgId = "721"))
doc <- POST(long_url)
class(doc)
どちらの POST 要求もステータス コード 200 を返し、doc のクラスは "HTMLInternalDocument" と "XMLInternalDocument" で、ページをスクレイピングできる通常の R オブジェクトです。しかし、URL にテーブルがあることはわかっていても、次の rvest 関数と XML 関数は空になります。
table <- html_nodes(doc, css = "td")
table <- readHTMLTable(doc)
私の httr リクエストに何が欠けているかを誰かが説明してくれませんか? GET リクエストも試してみましたが、うまくいきませんでした。