以下の式を使用してWebサイトを解析したとしましょう
library(XML)
url.df_1 = htmlTreeParse("http://www.appannie.com/app/android/com.king.candycrushsaga/", useInternalNodes = T)
以下のコードを実行すると、
xpathSApply(url.df_1, "//div[@class='app_content_section']/h3", function(x) c(xmlValue(x), xmlAttrs(x)[["href"]]))
私は下に行きます-
[1] "Description" "What's new"
[3] "Permissions" "More Apps by King.com All Apps »"
[5] "Customers Also Viewed" "Customers Also Installed"
今、私が興味を持っているのは、「Customers Also Installed」の部分だけです。しかし、以下のコードを実行すると、
xpathSApply(url.df_1, "//div[@class='app_content_section']/ul/li/a", function(x) c(xmlValue(x), xmlAttrs(x)[["href"]]))
「King.com のその他のアプリ」、「お客様も閲覧済み」、「お客様もインストール済み」に含まれるすべてのアプリを吐き出します。
だから私は試しました、
xpathSApply(url.df_1, "//div[h3='Customers Also Installed']”, function(x) c(xmlValue(x), xmlAttrs(x)[["href"]]))
しかし、これはうまくいきませんでした。だから私は試しました
xpathSApply(url.df_1, "//div[contains(.,'Customers Also Installed')]",xmlValue)
しかし、これもうまくいきません。(出力は以下のようなものになるはずです-)
[,1]
[1,] "Christmas Candy Free\n Daniel Development\n "
[2,] "/app/android/xmas.candy.free/"
[,2]
[1,] "Jewel Candy Maker\n Nutty Apps\n "
[2,] "/app/android/com.candy.maker.jewel.nuttyapps/"
[,3]
[1,] "Pogz 2\n Terry Paton\n "
[2,] "/app/android/com.terrypaton.unity.pogz2/"
どんなガイダンスでも大歓迎です!