Unicode では、アクセント付きの文字は 2 つの方法で表すことができます。アクセント付きの文字自体と、そのままの文字とアクセントの組み合わせです。たとえば、é (+U00E9) と e´ (+U0065 +U0301) は通常同じように表示されます。
R は以下をレンダリングします (バージョン 3.0.2、Mac OS 10.7.5 )。
> "\u00e9"
[1] "é"
> "\u0065\u0301"
[1] "é"
ただし、もちろん:
> "\u00e9" == "\u0065\u0301"
[1] FALSE
2つのユニコード文字を1文字の形式に変換するRの関数はありますか? 特に、ここでは に折りたたま"\u0065\u0301"
れ"\u00e9"
ます。
これは、大量の文字列を処理するのに非常に便利です。iconv
さらに、1 文字の形式は、少なくとも通常の Latin1 文字については、他のエンコーディングに簡単に変換でき、 plot
.
よろしくお願いします。