例のような vbulletin サイトを取り上げます。スレッドからテキスト メッセージだけをスクレイピングできるようにしたいと考えています。ただし、メッセージの css セレクターは #post_message_xxx と呼ばれ、xxx は可変 ID 番号です。
セレクターを html_nodes と部分的に一致させて、#post_message で始まるものをすべて取得するにはどうすればよいですか?
あるいは、もっと一般的な質問をするべきかもしれません。作成者をメッセージに帰属させ、メッセージの順序を追跡できるようにする場合、ページをスクレイピングするにはどうすればよいですか。
ありがとう。
library(rvest)
html <- html("http://www.acme.com/forums/new_rules_28429/")
cast <- html_nodes(html, "#post_message_28429")
cast
> <div id="post_message_28429"> Thanks for posting
> this. </div>
>
> attr(,"class")
[1] "XMLNodeSet"