regex - R 一重引用符を取り除く

Question

処理しようとしている文字列のベクトルがありますが、いくつかの奇妙な文字を取り除くことができません。

csv ファイルを読むとき、次の行を使用しました。

train <- read.csv(file="files/file1.csv", header = T, encoding = "UTF-8")

この行を使用して、句読点を削除しようとしました。

train$var1 <- gsub("[[:punct:]]", " ", train$var1)

ただし、実行後の検査では、奇妙な一重引用符、「...」、およびパスワードクローキング文字のような黒い点が引き続き表示されます。ここに出力があります：

dput(unique(unlist(var1List))[c(30242:30246, 30561, 30484)])
c("opportunity…", "about…", "expected…", "reward…", "us…", "‘as", 
"<U+25CF>")

これらのキャラクターを取り除くための提案はありますか?

score 5 · Accepted Answer

有効な文字のセットを除くすべてを削除できます。

train$var1 <- gsub("[^\\w\\s]", " ", train$var1, perl = TRUE)

たとえば、英数字または空白文字ではないすべての文字をスペースに変更します。

1 に答える 1