Rを使用してこのページをスクレイプしたいと思います:(http://www.fifa.com/worldcup/archive/germany2006/results/matches/match=97410001/report.html)など、ゴールの得点者と時間を取得します。
これまでのところ、これは私が持っているものです:
require(RCurl)
require(XML)
theURL <-"http://www.fifa.com/worldcup/archive/germany2006/results/matches/match=97410001/report.html"
webpage <- getURL(theURL, header=FALSE, verbose=TRUE)
webpagecont <- readLines(tc <- textConnection(webpage)); close(tc)
pagetree <- htmlTreeParse(webpagecont, error=function(...){}, useInternalNodes = TRUE)
そして、pagetreeオブジェクトには、解析されたhtmlへのポインターが含まれています(私は思います)。私が欲しい部分は:
<div class="cont")<ul>
<div class="bold medium">Goals scored</div>
<li>Philipp LAHM (GER) 6', </li>
<li>Paulo WANCHOPE (CRC) 12', </li>
<li>Miroslav KLOSE (GER) 17', </li>
<li>Miroslav KLOSE (GER) 61', </li>
<li>Paulo WANCHOPE (CRC) 73', </li>
<li>Torsten FRINGS (GER) 87'</li>
</ul></div>
しかし、私は今、それらをどのように隔離するかについて迷っています、そして率直に言って、私からbeejeebiesxpathSApply
を混乱させます!xpathApply
<div class="cont">
それで、タグ内に含まれる要素を吸い出すコマンドを作成する方法を知っている人はいますか?