私は Web スクレイピングの初心者で、検索語を送信する Web からデータを収集するための自動プロセスを実装する方法を学ぼうとしています。
私が取り組んでいる特定の問題は次のとおりです。
スタックオーバーフローの Web ページhttps://stackoverflow.com/を指定して、「Web スクレイピング」という用語の検索を送信し、すべての質問リンクと各質問のコンテンツをリストに収集したいと考えています。
これらの結果をスクレイピングすることは可能ですか?
私の計画は、用語のリストを作成することです:
term <- c(“web scraping”, “crawler”, “web spider”)
タームごとに研究を提出し、質問のタイトルと質問の内容を収集します。
もちろん、結果のページごとにプロセスを繰り返す必要があります。
残念ながら、Webスクレイピングは比較的初めてなので、どうすればよいかわかりません。Web をスクレイピングするためのパッケージをいくつかダウンロードしました (rvest、RCurl、XML、RCrawler)。
ご協力いただきありがとうございます