python - このエンコーディングとは何ですか? また、どのように変換すればよいですか?

Question

を介してlxmlとxpathを使用して、htmlタグ属性からテキストを引き出していますtag.attrib['title']。私は得る：

MÃ¡laga Airport

私が見ているのと同じURLのブラウザで：

Málaga Airport

前者を後者に変換するにはどうすればよいですか?

score 2 · Accepted Answer

lxml htmlパーサーは、バイト文字列の「latin1」エンコーディングを想定しているようです。

したがって、入力が「latin1」（または「ascii」）としてエンコードされていない限り、エンコードを明示的に指定する必要があります。この場合、「utf-8」である必要があるように見えます。

>>> from lxml import etree
>>>
>>> html = u"""
... <html>
... <head><title>Test</title></head>
... <body>
... <p test="Málaga">Example</p>
... </body>
... </html>
... """
>>>
>>> html = html.encode('utf-8')
>>>
>>> parser = etree.HTMLParser()
>>> tree = etree.fromstring(html, parser)
>>> print tree.xpath('//p/@test')[0]
MÃ¡laga
>>>
>>> parser = etree.HTMLParser(encoding='utf-8')
>>> tree = etree.fromstring(html, parser)
>>> print tree.xpath('//p/@test')[0]
Málaga

python - このエンコーディングとは何ですか? また、どのように変換すればよいですか?

1 に答える 1

Related

Reference