xml - Web サイトからサッカーのスコアを抽出する

Question

http://www.rsssf.com/tablese/eng2014.htmlから、リーグの順位や各ラウンドのスコアなど、いくつかのデータを R に抽出しようとしています。

XML を使用しようとしていることはわかっています。RCurl パッケージを使用できますが、それを行う方法が完全にはわかりません。

これを参照: XML パッケージを使用して html テーブルを R データフレームにスクレイピングする

library(XML)
theurl <- "http://en.wikipedia.org/wiki/Brazil_national_football_team"
tables <- readHTMLTable(theurl)
n.rows <- unlist(lapply(tables, function(t) dim(t)[1]))
the picked table is the longest one on the page

tables[[which.max(n.rows)]]

私はまだウェブサイトでテーブルを取得できません。誰かがこれで私を助けることができれば本当に感謝しています. ありがとう！

score 4 · Accepted Answer

問題が発生している理由は、指定されたテーブルが HTML テーブルではないためです。これは、ブラウザーで [ページのソースを表示] を使用して確認できます。テーブル内のデータを抽出してデータフレームに配置する作業を開始するのに役立つコードを次に示します。

dat = readLines('http://www.rsssf.com/tablese/eng2014.html', warn = F)
start = grep('Table', dat)[1] + 2
end = grep('Round', dat)[1] - 2
dat2 <- dat[start:end]

dat3 = read.fwf(textConnection(dat2), widths = c(3, 24, 3, 3, 3, 3, 8, 3))
dat3[dat3$V1 != "---",]

xml - Web サイトからサッカーのスコアを抽出する

1 に答える 1

Related

Reference