私はRでのスクレイピングに比較的慣れておらず、「rvest」を使用して幸運に恵まれましたが、解決できない問題に遭遇しました。
スクレイピングしようとしている Web サイトには、テーブルのどのページにいても同じ URL があります。たとえば、メインの Web ページは www.blah.com で、メインのテーブルが 1 つあり、同じテーブルの「次の」ページが 10 個ありますが、順番は次のページだけです (リンクできないため、実際のページにリンクしていないことをお詫びします)。仕事の都合で)。
したがって、表の 1 ページ目にいる場合、URL は www.blah.com です。表の 2 ページ目にいる場合、URL は www.blah.com などです... URL は変更されません。
これまでの私のコードは次のとおりです。私はrvestとphantomjsを組み合わせて使用しています。コードは完全に機能しますが、テーブルの対応する「次の」10ページではなく、テーブルの1ページを取得するためだけです。
url <- "http://www.blah.com"
writeLines(sprintf("var page = require('webpage').create();
page.open('%s', function () {
console.log(page.content); //page source
phantom.exit();
});", url), con="scrape.js")
system(phantomjs scrape.js > scrape.html")
page <- html("scrape.html")
page %>% html_nodes("td:nth-child(4)") %>% html_text()
そして、これはウェブサイトの表のページ 2 の HTML コードです (表の他のすべてのページは、2 を 3 に置き換えるなど、リストの上の方にあることを除いて同じです)。
<li><a href="#" id="p_2">2</a></li>
あなたが与えることができるアドバイス/助けをありがとう!