0

パッケージRSeleniumを使用して、サイトhttp://stats.statbroadcast.com/statmonitr/?id=102197からテキスト「VIRGINIA TECH」をスクレイピングしたいと思います。

スクレイピングしたい特定のテキストのcssセレクターは次のとおりです。

.valigntop:nth-child(1) .width6-3-4.marginr

リモートドライバーを開いてサイトに移動した後、次のことを試します。

webElem <- remDr$findElement(using = "css selector", '.valigntop:nth-child(1) .width6-3-4.marginr')
doc <- remDr$getPageSource()[[1]]
current_doc <- read_html(doc)
current_doc <- html_text(current_doc)

これは、必要なテキスト「VIRGINIA TECH」ではなく、大きなテキスト ブロックを返します。

私が欲しいものをこすり落とした後:

current_doc
[1] "VIRGINIA TECH"

どんな助けでも大歓迎です。さらに情報が必要な場合はお知らせください。

4

2 に答える 2

1

このリンクを読んだ後 、これが目的のテキストをスクレイピングするのに最適であることがわかりました。

webElems <- remDr$findElements(using = 'css selector', ".valigntop:nth-child(1) .width6-3-4.marginr")
current_doc <- unlist(lapply(webElems, function(x){x$getElementText()}))

結果:

current_doc
[1] "VIRGINIA TECH"
于 2016-02-24T14:54:24.880 に答える