r - R で htmlParse() を使用すると Web サイトのソースコードが見つからない

Question

次の Web サイトの完全なソースコードをダウンロードしようとしています: http://www.carnegiehall.org/Students/。

抽出したい情報は次のセクションです。

カーネギーホールプレゼンツ

2013 年 3 月 28 日木曜日 | 7:30 PM

ローレンス・ブラウンリー

マーティン・カッツ

ザンケルホール

ソースを表示すると、そのテキストの次のコードのチャンクが表示されます。

 <div class="info-col">
     <div class="up-lic">Carnegie Hall Presents</div>
     <div class="date">Thursday, March 28, 2013 | 7:30 PM</div> 
     <div class="clearfix"></div>
     <div class="title color">
         <a href="/Calendar/2013/3/28/0730/PM/Lawrence-Brownlee-Martin-Katz/">Lawrence Brownlee<BR>Martin Katz</a>
     </div>
     <div class="clearfix"></div>
     <div class="location"> Zankel Hall</div>
     <div class="clearfix"></div> 
     <br />

Rで次を実行すると欠落しています：

htmlParse(getURL("http://www.carnegiehall.org/Students", .opts = curlOptions(followlocation=TRUE)), asText = TRUE)

誰が私が間違っているのか教えてもらえますか?

score 0 · Accepted Answer

library(XML)
hdata <- htmlParse('http://www.carnegiehall.org/Students/')
xpathSApply(hdata,'//div[@class="info-col"]/div/text()|//div[@class="info-col"]/div/a/text()')
#[[1]]
#Carnegie Hall Presents 

#[[2]]
#Thursday, March 28, 2013 | 7:30 PM 

#[[3]]


#[[4]]
#Lawrence Brownlee 

#[[5]]
#Martin Katz 

#[[6]]
# Zankel Hall 

#[[7]]

score 0 · Accepted Answer

問題は、URL の取得 (解析ではなく) にあるようです。次に示すように、お探しの情報が表示されません。

H <- getURL("http://www.carnegiehall.org/Students", .opts = curlOptions(followlocation=TRUE))

grepl("Zankel Hall", H)
# [1] FALSE

grepl("March 28", H)
# [1] FALSE

HTML をよく見ると、スクリプトを介してカレンダーが読み込まれているように見えます

r - R で htmlParse() を使用すると Web サイトのソース コードが見つからない

2 に答える 2

Related

Reference

r - R で htmlParse() を使用すると Web サイトのソースコードが見つからない