python - Pythonで読み取り可能な文字列に16進数でエスケープされた値をリストします

Question

次のようなリストがあります。

['<option value="284">\xc2\xa0\xc2\xa0\xc2\xa0\xc2\xa0 Historia </option>', '<option value="393">\xc2\xa0\xc2\xa0\xc2\xa0\xc2\xa0 H\xc3\xa4lsa & sk\xc3\xb6nhet </option>']

このリストを実際に読み取り可能な要素を持つリストに変換するにはどうすればよいですか?

ISO 8859-1にあると思います。

score 1 · Accepted Answer

.decode()メソッドを使用して文字列値をデコードします。あなたは実際にUTF-8データを見ています：

>>> print lst[0].decode('utf8')
<option value="284">     Historia </option>
>>> print lst[1].decode('utf8')
<option value="393">     Hälsa & skönhet </option>

最初のバイトは、 Unicodeコードポイント U+00a0、改行なしスペース (  HTML エンティティとして)を表します。

>>> lst[0].decode('utf8')
u'<option value="284">\xa0\xa0\xa0\xa0 Historia </option>'
>>> lst[1].decode('utf8')
u'<option value="393">\xa0\xa0\xa0\xa0 H\xe4lsa & sk\xf6nhet </option>'

score 0 · Accepted Answer

UTF-8 のように見えます:

>>> s=['<option value="284">\xc2\xa0\xc2\xa0\xc2\xa0\xc2\xa0 Historia </option>', '<option value="393">\xc2\xa0\xc2\xa0\xc2\xa0\xc2\xa0 H\xc3\xa4lsa & sk\xc3\xb6nhet </option>']
>>> for v in s:
...     print v.decode('utf8')
...     
<option value="284">     Historia </option>
<option value="393">     Hälsa & skönhet </option>

python - Pythonで読み取り可能な文字列に16進数でエスケープされた値をリストします

2 に答える 2

Related

Reference