WebサイトがCurlからの直接アクセスをブロックしているようです。
library(XML)
library(RCurl)
theurl <- "http://www.london2012.com/medals/medal-count/"
page <- getURL(theurl)
page # fail
[1] "<HTML><HEAD>\n<TITLE>Access Denied</TITLE>\n</HEAD><BODY>\n<H1>Access Denied</H1>\n \nYou don't have permission to access \"http://www.london2012.com/medals/medal-count/\" on this server.<P>\nReference #18.358a503f.1343590091.c056ae2\n</BODY>\n</HTML>\n"
テーブルから直接アクセスできるかどうか試してみましょう。
page <- readHTMLTable(theurl)
運がないError in htmlParse(doc) : error in creating parser for http://www.london2012.com/medals/medal-count/
このテーブルをRに入れるにはどうすればよいですか?
更新:コメントやいじくりに応じて、ユーザーエージェント文字列を偽造してコンテンツを取得しました。ただし、readHTMLtableはエラーを返します。
page <- getURLContent(theurl, useragent="Mozilla/5.0 (Windows NT 6.1; rv:15.0) Gecko/20120716 Firefox/15.0a2")