0

私はRでのスクレイピングに比較的慣れておらず、「rvest」を使用して幸運に恵まれましたが、解決できない問題に遭遇しました。

スクレイピングしようとしている Web サイトには、テーブルのどのページにいても同じ URL があります。たとえば、メインの Web ページは www.blah.com で、メインのテーブルが 1 つあり、同じテーブルの「次の」ページが 10 個ありますが、順番は次のページだけです (リンクできないため、実際のページにリンクしていないことをお詫びします)。仕事の都合で)。

したがって、表の 1 ページ目にいる場合、URL は www.blah.com です。表の 2 ページ目にいる場合、URL は www.blah.com などです... URL は変更されません。

これまでの私のコードは次のとおりです。私はrvestとphantomjsを組み合わせて使用​​しています。コードは完全に機能しますが、テーブルの対応する「次の」10ページではなく、テーブルの1ページを取得するためだけです。

url <- "http://www.blah.com"

writeLines(sprintf("var page = require('webpage').create();
page.open('%s', function () {
   console.log(page.content); //page source
   phantom.exit();
});", url), con="scrape.js")

system(phantomjs scrape.js > scrape.html") 

page <- html("scrape.html")
page %>% html_nodes("td:nth-child(4)") %>% html_text()

そして、これはウェブサイトの表のページ 2 の HTML コードです (表の他のすべてのページは、2 を 3 に置き換えるなど、リストの上の方にあることを除いて同じです)。

<li><a href="#" id="p_2">2</a></li>

あなたが与えることができるアドバイス/助けをありがとう!

4

0 に答える 0