0

次のようなリストがあります。

['<option value="284">\xc2\xa0\xc2\xa0\xc2\xa0\xc2\xa0 Historia </option>', '<option value="393">\xc2\xa0\xc2\xa0\xc2\xa0\xc2\xa0 H\xc3\xa4lsa & sk\xc3\xb6nhet </option>']

このリストを実際に読み取り可能な要素を持つリストに変換するにはどうすればよいですか?

ISO 8859-1にあると思います。

4

2 に答える 2

1

.decode()メソッドを使用して文字列値をデコードします。あなたは実際にUTF-8データを見ています:

>>> print lst[0].decode('utf8')
<option value="284">     Historia </option>
>>> print lst[1].decode('utf8')
<option value="393">     Hälsa & skönhet </option>

最初のバイトは、 Unicodeコード ポイント U+00a0、改行なしスペース ( &nbsp;HTML エンティティとして)を表します。

>>> lst[0].decode('utf8')
u'<option value="284">\xa0\xa0\xa0\xa0 Historia </option>'
>>> lst[1].decode('utf8')
u'<option value="393">\xa0\xa0\xa0\xa0 H\xe4lsa & sk\xf6nhet </option>'
于 2013-01-26T22:47:21.537 に答える
0

UTF-8 のように見えます:

>>> s=['<option value="284">\xc2\xa0\xc2\xa0\xc2\xa0\xc2\xa0 Historia </option>', '<option value="393">\xc2\xa0\xc2\xa0\xc2\xa0\xc2\xa0 H\xc3\xa4lsa & sk\xc3\xb6nhet </option>']
>>> for v in s:
...     print v.decode('utf8')
...     
<option value="284">     Historia </option>
<option value="393">     Hälsa & skönhet </option>
于 2013-01-26T22:54:05.467 に答える