R の Rvest パッケージを使用して、このホテルのメイン ページからすべてのユーザー レビューをスクレイピングしたいと考えています。
最初の 10 件のレビューしか取得できません。JavaScript によって生成される [もっと見る] ボタンをクリックすると、次の一連のレビューが読み込まれます。
私は次の JavaScript を書きました - 「basic.js」:
var webPage = require('webpage');
var page = webPage.create();
var fs = require('fs');
var path = 'taj.html'
page.open('http://www.holidayiq.com/Taj-Exotica-Benaulim-hotel-2025.html', function (status) {
var content = page.content;
fs.write(path,content,'w')
phantom.exit();
});
次に、Rで次のコマンドを使用しました:
system("./phantomjs basic.js")
出力された「taj.html」ファイルには、すべてのレビューが含まれているわけではありません。それで、スクレイプコード...
pg <- read_html("taj.html")
pg %>% html_nodes(".detail-review-by-hotel .srm") %>% html_node(".media-heading") %>% html_text()
... 最初の 10 件のレビューのみを返します。