python - Pythonはsurrogateescapeでエンコードできません

翻译自：https://stackoverflow.com/questions/31898353 2015-08-08T20:40:25.987

9774 次

Python (3.4) での Unicode サロゲートエンコーディングに問題があります。

>>> b'\xCC'.decode('utf-16_be', 'surrogateescape').encode('utf-16_be', 'surrogateescape')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'utf-16-be' codec can't encode character '\udccc' in position 0: surrogates not allowed

Pythonのドキュメントによると、私が間違っていなければ：

'surrogateescape': デコード時に、バイトを U+DC80 から U+DCFF の範囲の個々のサロゲートコードに置き換えます。このコードは、データのエンコード時に「surrogateescape」エラーハンドラが使用されると、同じバイトに戻されます。

コードはソースシーケンス ( b'\xCC') を生成するだけです。では、代わりに例外が発生するのはなぜですか?

これはおそらく私の2番目の質問に関連しています:

バージョン 3.4 で変更: utf-16* および utf-32* エンコーダーは、サロゲートコードポイント (U+D800–U+DFFF) のエンコードを許可しなくなりました。

( https://docs.python.org/3/library/codecs.html#standard-encodingsより)

私の知る限り、いくつかのコードポイントをサロゲートペアなしで UTF-16 にエンコードすることは不可能です。では、この背後にある理由は何ですか？

python - Pythonはsurrogateescapeでエンコードできません

2 に答える 2

Related

Reference