。これに取り組むにはおそらくさまざまな方法がありますが、1つの方法は、HTMLファイル自体を直接開く/置換する/書き込むことです。一般に、正規表現を使用してXML / HTMLに取り組むことは悪い考えですが、この場合、不要な改行なしスペースという単純な問題があるため、それほど問題にはならない可能性があります。次のコードは、一致するファイルのリストを作成gsub
# Create 'html' file to use with test
txt <- "<span class=ft6>kids, and kids in your community, in DIY projects. </span>
<span class=ft6>kids, and kids in your community, in DIY projects. </span>
<span class=ft6>kids, and kids in your community, in DIY projects. </span>"
writeLines(txt, "file1.html")
# Now read files - in this case only one
html.files <- list.files(pattern = ".html")
# Loop through the list of files
retval <- lapply(html.files, function(x) {
in.lines <- readLines(x, n = -1)
# Replace non-breaking space with space
out.lines <- gsub(" "," ", in.lines)
# Write out the corrected lines to a new file
writeLines(out.lines, paste("new_", x, sep = ""))