rvest パッケージを使用して Web ページから情報をスクレイピングしています。ウェブサイトhttp://www.ratemds.com/doctors/?page2=&specialty=family-gp&page=1の最初の 2 ページをスクレイピングしたい
以下は私のコードです。私が直面している問題は、コメント部分をこすることです。「続きを読む」があるところにそのリンクに行き、すべてのコメントをかき集めたいです。
誰でもこれを行う方法について何か考えを教えてもらえますか? follow_link と jump_to を試しましたが、成功しませんでした。
library(rvest)
hospital <- html("http://www.ratemds.com/doctors/?specialty=family-gp")
nxt_pg<- "&page=3"
nxt_pg1<- "?page2=&"
hospital_test1 <-paste0("http://www.ratemds.com/doctors/",nxt_pg1,"?specialty=family-gp",
nxt_pg,sep="")
hospital_test1 <- html(hospital_test1)
web_crawler(x=hospital)
web_crawler <- function(x)
{
Doctor_nm <- x %>%
html_nodes("h2 a") %>%
html_text()
Doctor_nm
# return(Doctor_nm)
Comments <- x %>%
html_nodes(".rating-comment") %>%
html_text()
Comments
# return(Comments)
return(list(Doctor_nm,Comments))
}
fd<-web_crawler(x=hospital)
df <- as.data.frame(fd)
colnames(df) <- c ("Doctors_nm","Comments")
fd1<-web_crawler(x=hospital_test1)
df1 <- as.data.frame(fd1)
colnames(df1) <- c ("Doctors_nm","Comments")
Final_data <- rbind(df,df1)