encoding - Python 2.x の商標記号の長さ

Question

なぜですか

>>> len('™')
>>> 3

python 2.xで？

1文字と見なされるようにすばやく修正するにはどうすればよいですか(Python 3.xのように?)

score 6 · Accepted Answer

端末のエンコーディングはUTF8に設定されています。エンコードされた文字のバイト数を数えています。

>>> '™'
'\xe2\x84\xa2'
>>> len('™')
3

バイトの代わりにUnicodeを使用して文字をカウントします。

>>> u'™'
u'\u2122'
>>> len(u'™')
1

または端末エンコーディングからデコードします。

>>> import sys
>>> '™'.decode(sys.stdin.encoding)
u'\u2122'

Python 3では、文字列はunicode値であり、Python 2strタイプの名前が変更されていbyteます（入力は基本的b'™'にPython 3と同じです）。

PythonとUnicodeについて読みたいと思うかもしれません：

1 に答える 1