python - Pythonのutfエンコーディングの問題または私のlibxml？

Question

こんにちは、python 用の libxml を使用して Web ページから「META」記述を抽出しようとしています。UTF 文字に遭遇すると、ガベージ文字をチョークして表示するようです。ただし、正規表現を介してデータを取得すると、ユニコード文字がうまく取得されます。私はlibxmlで何か間違っていますか?

ありがとう

''' test encoding issues with utf8 '''

from lxml.html import fromstring
from lxml.html.clean import Cleaner
import urllib2
import re

url = 'http://www.youtube.com/watch?v=LE-JN7_rxtE'
page = urllib2.urlopen(url).read()


xmldoc = fromstring(page)
desc = xmldoc.xpath('/html/head/meta[@name="description"]/@content')
meta_description = desc[0].strip()

print "**** LIBXML TEST ****\n" 
print meta_description


print "**** REGEX TEST ******"
reg = re.compile(r'<meta name="description" content="(.*)">')
for desc in reg.findall(page):
  print desc

出力:

**** LIBXML TEST ****

My name is Hikakin.<br>I'm Japanese Beatboxer.<br><br>HIKAKIN Official Blog<br>http://ameblo.jp/hikakin/<br><br>ãã³çã³ãã¥<br>http://com.nicovideo.jp/community/co313576<br><br>â»å¾¡ç¨ã®æ¹ã¯Youtubeã®ã¡ãã»ã¼ã¸ã¾ã...
**** REGEX TEST ******
My name is Hikakin.&lt;br&gt;I'm Japanese Beatboxer.&lt;br&gt;&lt;br&gt;HIKAKIN Official Blog&lt;br&gt;http://ameblo.jp/hikakin/&lt;br&gt;&lt;br&gt;ニコ生コミュ&lt;br&gt;http://com.nicovideo.jp/community/co313576&lt;br&gt;&lt;br&gt;※御用の方はYoutubeのメッセージまた...

score 1 · Accepted Answer

1

これは役に立ちますか？

xmldoc = fromstring(page.decode('utf-8'))

于 2010-06-21T23:04:45.187 に答える

score 0 · Accepted Answer

コンソールが Unicode 文字の表示をサポートしていないことが問題である可能性が非常に高いです。出力をファイルにパイプしてから、Unicode を表示できるもので開いてみてください。

score 0 · Accepted Answer

lxml では、エンコーディングをパーサーに渡す必要があります。HTML/XML 解析の場合:

url = 'http://en.wikipedia.org/wiki/' + wiki_word
parser = lxml.etree.HTMLParser(encoding='utf-8')  # you can either use an XMLParser()

page = urllib2.urlopen(url)
doc = etree.parse(page, parser)
T = doc.xpath('//p//text()')
text = u''.join(T).encode('utf-8')

python - Pythonのutfエンコーディングの問題または私のlibxml？

3 に答える 3

Related

Reference