r - rvest::follow_link() 関数をループして、リンクされた HTML Web ページをスクレイピングする

Question

rvest::follow_link()関数をループして、リンクされた Web ページをスクレイピングするにはどうすればよいですか?

使用事例：

すべてのレゴムービーのキャストメンバーを特定する
すべてのレゴムービーキャストメンバーのリンクをたどる
すべてのキャストメンバーの各映画 (+ 年) のテーブルを取得します。

必要なセレクターは次のとおりです。

library(rvest)
lego_movie <- html("http://www.imdb.com/title/tt1490017/")
lego_movie <- lego_movie %>%
  html_nodes(".itemprop , .character a") %>%
  html_text()

# follow cast links
(".itemprop .itemprop") 

# grab tables of all movies and dates for each cast member
(".year_column , b a")

望ましい出力:

castMember       movie    year
Will Arnett      Lego     2017
Will Arnett      BoJack   2014
Will Arnett      Wander   2014
        ............
Elizabeth Banks  Moonbeam 2015
Elizabeth Banks  Wet Hot  2015
        ............
Alison Brie      Get Hard 2015
Alison Brie      GetaJob  2015
        .....etc.....

score 4 · Accepted Answer

おそらく、このようなものが機能する可能性があります。

library(rvest)
library(stringr)
library(data.table)
lego_movie <- read_html("http://www.imdb.com/title/tt1490017/")
cast <- lego_movie %>%
    html_nodes("#titleCast .itemprop span") %>%
    html_text()
cast

s <- html_session("http://www.imdb.com/title/tt1490017/")

cast_movies <- list()

for(i in cast[1:3]){
    actorpage <- s %>% follow_link(i) %>% read_html()
    cast_movies[[i]]$movies <-  actorpage %>% 
        html_nodes("b a") %>% html_text() %>% head(10)
    cast_movies[[i]]$years <- actorpage %>%
        html_nodes("#filmography .year_column") %>% html_text() %>% 
        head(10) %>% str_extract("[0-9]{4}")
    cast_movies[[i]]$name <- rep(i, length(cast_movies[[i]]$years))
}

cast_movies
as.data.frame(cast_movies[[1]])
rbindlist(cast_movies)

r - rvest::follow_link() 関数をループして、リンクされた HTML Web ページをスクレイピングする

2 に答える 2

Related

Reference