RでUTF-8の元の文字、特に中国語を台無しにすることなく、ASCIIおよびUTF-8でエンコードされた文字列から句読点を削除するにはどうすればよいですか.
text <- "Longchamp Le Pliage 肩背包 (小)"
stri_replace_all_regex(text, '\\p{P}', '')
結果:
Longchamp Le Pliage ��背�� 小
しかし、望ましい結果は次のようになります。
Longchamp Le Pliage 肩背包 小
CJK 記号と句読点をすべて削除し、ASCII 句読点を求めています。
@akrun、sessionInfo()は以下の通り
locale:
[1] LC_COLLATE=English_Singapore.1252 LC_CTYPE=English_Singapore.1252 LC_MONETARY=English_Singapore.1252
[4] LC_NUMERIC=C LC_TIME=English_Singapore.1252