元の投稿者がからテキストを取得できないという問題を反映するために、回答を書き直しましたXMLValue
。これに取り組むにはおそらくさまざまな方法がありますが、1つの方法は、HTMLファイル自体を直接開く/置換する/書き込むことです。一般に、正規表現を使用してXML / HTMLに取り組むことは悪い考えですが、この場合、不要な改行なしスペースという単純な問題があるため、それほど問題にはならない可能性があります。次のコードは、一致するファイルのリストを作成gsub
し、コンテンツに対してを実行する方法の例です。必要に応じて簡単に変更または拡張できる必要があります。
setwd("c:/test/")
# Create 'html' file to use with test
txt <- "<span class=ft6>kids, and kids in your community, in DIY projects. </span>
<span class=ft6>kids, and kids in your community, in DIY projects. </span>
<span class=ft6>kids, and kids in your community, in DIY projects. </span>"
writeLines(txt, "file1.html")
# Now read files - in this case only one
html.files <- list.files(pattern = ".html")
html.files
# Loop through the list of files
retval <- lapply(html.files, function(x) {
in.lines <- readLines(x, n = -1)
# Replace non-breaking space with space
out.lines <- gsub(" "," ", in.lines)
# Write out the corrected lines to a new file
writeLines(out.lines, paste("new_", x, sep = ""))
})