Web ページから RSS リンクを印刷する必要がありますが、このリンクが正しくデコードされません。これが私のコードです:
import urllib2
from lxml import html, etree
import chardet
data = urllib2.urlopen('http://facts-and-joy.ru/')
S=data.read()
encoding = chardet.detect(S)['encoding']
#S=S.decode(encoding)
#encoding='utf-8'
print encoding
parser = html.HTMLParser(encoding=encoding)
content = html.document_fromstring(S,parser)
loLinks = content.xpath('//link[@type="application/rss+xml"]')
for oLink in loLinks:
print oLink.xpath('@title')[0]
print etree.tostring(oLink,encoding='utf-8')
ここに私の出力があります:
utf-8
Позитивное мышление RSS Feed
<link rel="alternate" type="application/rss+xml" title="Позитивное мышление RSS Feed" href="http://facts-and-joy.ru/feed/" />
タイトルの内容はそれ自体で正しく表示されましたが、tostring() 内で奇妙な &#... 記号に置き換えられました。リンク要素全体を正しく印刷するにはどうすればよいですか?
よろしくお願いします。