Pythonの場合:
>>> "\xc4\xe3".decode("gbk").encode("utf-8")
'\xe4\xbd\xa0'
>>> "\xc4\xe3".decode("gbk")
u'\u4f60'
2つの結論を得ることができます。
1. \ xc4 \ xe3 in gbk encode = \ xe4 \ xbd \ xa0 in utf-8
2. \ xc4 \ xe3 in gbk encode = \ x4f \ x60 in unicode(or say in ucs-2)
Rで:
> iconv("\xc4\xe3",from="gbk",to="utf-8",toRaw=TRUE)
[[1]]
[1] e4 bd a0
> iconv("\xc4\xe3",from="gbk",to="unicode",toRaw=TRUE)
[[1]]
[1] ff fe 60 4f
今、結論1は正しいです、それはRと同じです
結論2はパズルです、
一体何がgbk encode=??の\xc4\xe3ですか?Unicodeで。
Pythonではu'\u4f60'、Rではff fe 60 4f
は等しいですか?どれが正しいですか?それらはすべて正しいですか?