regex - 正規表現を使用して、中国語のような UTF-8 または UTF-16 でエンコードされたテキストを汚染することなく句読点を削除する方法は?

翻译自：https://stackoverflow.com/questions/32451109 2015-09-08T06:55:26.443

773 次

RでUTF-8の元の文字、特に中国語を台無しにすることなく、ASCIIおよびUTF-8でエンコードされた文字列から句読点を削除するにはどうすればよいですか.

text <- "Longchamp Le Pliage 肩背包 (小)"
stri_replace_all_regex(text, '\\p{P}', '')

結果:

Longchamp Le Pliage ��背�� 小

しかし、望ましい結果は次のようになります。

Longchamp Le Pliage 肩背包 小

CJK 記号と句読点をすべて削除し、ASCII 句読点を求めています。

@akrun、sessionInfo()は以下の通り

locale:
[1] LC_COLLATE=English_Singapore.1252  LC_CTYPE=English_Singapore.1252    LC_MONETARY=English_Singapore.1252
[4] LC_NUMERIC=C                       LC_TIME=English_Singapore.1252

regex - 正規表現を使用して、中国語のような UTF-8 または UTF-16 でエンコードされたテキストを汚染することなく句読点を削除する方法は?

1 に答える 1

Related

Reference