R でパスワードで保護された Web サイトからデータをスクレイピングしようとしています。いろいろ読んでみると、パスワード認証を使用してスクレイピングするには、httr および RCurl パッケージが最適なオプションのようです (XML パッケージも調べました)。
私がスクレイピングしようとしている Web サイトは次のとおりです (ページ全体にアクセスするには、無料のアカウントが必要です): http://subscribers.footballguys.com/myfbg/myviewprojections.php?projector=2
これが私の2つの試みです(「ユーザー名」をユーザー名に、「パスワード」をパスワードに置き換えます):
#This returns "Status: 200" without the data from the page:
library(httr)
GET("http://subscribers.footballguys.com/myfbg/myviewprojections.php?projector=2", authenticate("username", "password"))
#This returns the non-password protected preview (i.e., not the full page):
library(XML)
library(RCurl)
readHTMLTable(getURL("http://subscribers.footballguys.com/myfbg/myviewprojections.php?projector=2", userpwd = "username:password"))
他の関連する投稿 (以下のリンク) を見ましたが、その回答を私のケースに適用する方法がわかりません。
R を使用して、Cookie を必要とする SSL ページから zip ファイルをダウンロードする方法
Rで保護されたページ(httpsリンク)をWebスクレイピングする方法(XMLパッケージのreadHTMLTableを使用)?
R - RCurl は、パスワードで保護されたサイトからデータをスクレイピングします
http://www.inside-r.org/questions/how-scrape-data-password-protected-https-website-using-r-hold