3

例のような vbulletin サイトを取り上げます。スレッドからテキスト メッセージだけをスクレイピングできるようにしたいと考えています。ただし、メッセージの css セレクターは #post_message_xxx と呼ばれ、xxx は可変 ID 番号です。

セレクターを html_nodes と部分的に一致させて、#post_message で始まるものをすべて取得するにはどうすればよいですか?

あるいは、もっと一般的な質問をするべきかもしれません。作成者をメッセージに帰属させ、メッセージの順序を追跡できるようにする場合、ページをスクレイピングするにはどうすればよいですか。

ありがとう。

library(rvest)
html <- html("http://www.acme.com/forums/new_rules_28429/")
cast <- html_nodes(html, "#post_message_28429")
cast

> <div id="post_message_28429">&#13;            &#13;           Thanks for posting
> this.&#13;        </div> 
> 
> attr(,"class")

[1] "XMLNodeSet"
4

2 に答える 2

5

または、実際には「はるかに強力ではない」CSS セレクターでも同じように行うことができます。

cast <- html_nodes(html, "div[id^='post_message']")
于 2015-03-02T02:16:46.280 に答える