python - urllib: utf-8 でエンコードされたサイトのソースコードを取得する

Question

あるウェブサイトのセグメントを取得しようとしています。スクリプトは機能しますが、á、é、í、ó、ú などのアクセントのある Web サイトです。

urllib または urllib2 を使用してサイトをフェッチすると、サイトのソースコードが utf-8 でエンコードされません。utf-8 はこれらのアクセントをサポートしているためです。

ターゲットサイトには次のメタタグが含まれているため、utf-8 でエンコードされていると思われます。

<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />

私のpythonスクリプト：

opener = urllib2.build_opener()
opener.addheaders = [('Accept-Charset', 'utf-8')]
url_response = opener.open(url)
deal_html = url_response.read().decode('utf-8')

ただし、utf-8 でエンコードされていないように見える結果が得られます。

例: ウェブサイトの "Milán" = urllib2 が取得した後の "Mil\xe1n"

助言がありますか？

score 2 · Accepted Answer

スクリプトは正しく機能しています。"\xe1"文字列は、デコードの結果のオブジェクトの表現ですunicode。例えば：

>>> "Mil\xc3\xa1n".decode('utf-8')
u'Mil\xe1n'

"\xc3\xa1"シーケンスは、分音記号が付いた文字 a のUTF -8シーケンスです: á。

python - urllib: utf-8 でエンコードされたサイトのソース コードを取得する

1 に答える 1

Related

Reference

python - urllib: utf-8 でエンコードされたサイトのソースコードを取得する