XML パッケージから readHTMLTable を使用する方法について SO に良い回答があり、通常の http ページでそれを行いましたが、https ページで問題を解決できません。
この Web サイト (url 文字列) のテーブルを読み込もうとしています:
library(RTidyHTML)
library(XML)
url <- "https://ned.nih.gov/search/ViewDetails.aspx?NIHID=0010121048"
h = htmlParse(url)
tables <- readHTMLTable(url)
しかし、次のエラーが表示されます: ファイルhttps ://ned.nih.gov/search/Vi...存在しません。
私はこれでhttpsの問題を乗り越えようとしました(以下の最初の2行)(Googleを使用して解決策を見つけることから(ここのように:http ://tonybreyal.wordpress.com/2012/01/13/ra-quick-scrape-of) -top-grossing-films-from-boxofficemojo-com/ )。
このトリックは、ページをより多く表示するのに役立ちますが、テーブルを抽出しようとしてもうまくいきません。アドバイスをいただければ幸いです。組織、組織の役職、マネージャーなどのテーブル フィールドが必要です。
#attempt to get past the https problem
raw <- getURL(url, followlocation = TRUE, cainfo = system.file("CurlSSL", "cacert.pem", package = "RCurl"))
head(raw)
[1] "\r\n<!DOCTYPE html PUBLIC \"-//W3C//DTD XHTML 1.0 Transitional//EN\" \"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd\">\n<html xmlns=\"http://www.w3.org/1999/xhtml\" xml:lang=\"en\" lang=\"en\">\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html;
...
h = htmlParse(raw)
Error in htmlParse(raw) : File ...
tables <- readHTMLTable(raw)
Error in htmlParse(doc) : File ...