私はrvest
ウェブサイトを解析するために使用しています。私はこれらの小さな壊れないスペースで壁にぶつかっています。
解析された html ドキュメントの要素によって作成された空白をどのように削除しますか?
library("rvest")
library("stringr")
minimal <- html("<!doctype html><title>blah</title> <p> foo")
bodytext <- minimal %>%
html_node("body") %>%
html_text
今、本文を抽出しました:
bodytext
[1] " foo"
ただし、その厄介な空白を削除することはできません。
str_trim(bodytext)
gsub(pattern = " ", "", bodytext)