処理しようとしている文字列のベクトルがありますが、いくつかの奇妙な文字を取り除くことができません。
csv ファイルを読むとき、次の行を使用しました。
train <- read.csv(file="files/file1.csv", header = T, encoding = "UTF-8")
この行を使用して、句読点を削除しようとしました。
train$var1 <- gsub("[[:punct:]]", " ", train$var1)
ただし、実行後の検査では、奇妙な一重引用符、「...」、およびパスワードクローキング文字のような黒い点が引き続き表示されます。ここに出力があります:
dput(unique(unlist(var1List))[c(30242:30246, 30561, 30484)])
c("opportunity…", "about…", "expected…", "reward…", "us…", "‘as",
"<U+25CF>")
これらのキャラクターを取り除くための提案はありますか?