r - R と XPath を使用してセルテーブルのテキストを取得する

Question

私は R と XPath の初心者です。スクレイピングの仕組みを学ぶために CRAN でオブジェクトをスクレイピングしようとしています。

http://cran.r-project.org/web/packages/XML/index.htmlのパッケージから依存関係を取得したい

要素は「bitops、RCurl」です

XPathはこれでなければなりません/html/body/table/tbody/tr[4]/td[2]

これは私のRコードです

urlContent <- htmlParse("http://cran.r-project.org/web/packages/abc/index.html")
xpathSApply(doc=urlContent,path="/html/body/table/tbody/tr[4]/td[2]")

しかし、どこに問題があるのか理解できません。助けてもらえますか？

score 1 · Accepted Answer

別の賢明なオプションは、使用readHTMLTableして書き込みを避けることxpathです。

ここでは、最初の列がと等しい行にアクセスしているよりも、最初のテーブルを読んでいますSuggests:。

library(XML)
dat <- readHTMLTable('http://cran.r-project.org/web/packages/XML/index.html')[[1]]
dat[dat[,1] == "Suggests:",]
Version:      3.96-1.1
3 Suggests: bitops, RCurl

r - R と XPath を使用してセル テーブルのテキストを取得する

1 に答える 1

Related

Reference

r - R と XPath を使用してセルテーブルのテキストを取得する