0

RでUTF-8の元の文字、特に中国語を台無しにすることなく、ASCIIおよびUTF-8でエンコードされた文字列から句読点を削除するにはどうすればよいですか.

text <- "Longchamp Le Pliage 肩背包 (小)"
stri_replace_all_regex(text, '\\p{P}', '')

結果:

Longchamp Le Pliage ��背�� 小

しかし、望ましい結果は次のようになります。

Longchamp Le Pliage 肩背包 小

CJK 記号と句読点をすべて削除し、ASCII 句読点を求めています。

@akrun、sessionInfo()は以下の通り

locale:
[1] LC_COLLATE=English_Singapore.1252  LC_CTYPE=English_Singapore.1252    LC_MONETARY=English_Singapore.1252
[4] LC_NUMERIC=C                       LC_TIME=English_Singapore.1252    
4

1 に答える 1