パイソン 2.7
Web ページのソース コードからビデオ タイトルを取得するプログラムがありますが、タイトルは HTML 形式でエンコードされています。
これは私がこれまでに試したことです:
>>> import urllib2
>>> urllib2.unquote('£')
'£'
それはうまくいきませんでした...それから私は試しました:
>>> import HTMLParser
>>> h = HTMLParser.HTMLParser()
>>> h.unescape('£')
u'\xa3'
ご覧のとおり、どちらも機能せず、2 つの組み合わせも機能しません。
'£'
それが HTML 文字の実体名であることがわかりました。「\xa3」は見つけられませんでした。
これを行う方法、PythonでHTMLコンテンツを読み取り可能な形式に変換する方法を知っている人はいますか?