rvest::follow_link()
関数をループして、リンクされた Web ページをスクレイピングするにはどうすればよいですか?
使用事例:
- すべてのレゴ ムービーのキャスト メンバーを特定する
- すべてのレゴ ムービーキャスト メンバーのリンクをたどる
- すべてのキャスト メンバーの各映画 (+ 年) のテーブルを取得します。
必要なセレクターは次のとおりです。
library(rvest)
lego_movie <- html("http://www.imdb.com/title/tt1490017/")
lego_movie <- lego_movie %>%
html_nodes(".itemprop , .character a") %>%
html_text()
# follow cast links
(".itemprop .itemprop")
# grab tables of all movies and dates for each cast member
(".year_column , b a")
望ましい出力:
castMember movie year
Will Arnett Lego 2017
Will Arnett BoJack 2014
Will Arnett Wander 2014
............
Elizabeth Banks Moonbeam 2015
Elizabeth Banks Wet Hot 2015
............
Alison Brie Get Hard 2015
Alison Brie GetaJob 2015
.....etc.....