python - HTMLParser.HTMLParser().unescape() が機能しない

Question

'£'HTML エンティティを人間が読める形式、たとえば「£」、'°'「°」などに変換したいと考えています。

この質問に関するいくつかの投稿を読みました

Python 2.x を使用して HTML ソースコンテンツを読み取り可能な形式に変換する

Python で XML/HTML エンティティを Unicode 文字列に変換する

彼らによると、文書化されていない関数 unescape() を使用することにしましたが、うまくいきません...

私のコードサンプルは次のようなものです:

import HTMLParser

htmlParser = HTMLParser.HTMLParser()
decoded = htmlParser.unescape('&copy; 2013')
print decoded

この python スクリプトを実行すると、出力は次のようになります。

&copy; 2013

それ以外の

© 2013

私は Python 2.X を使用しており、Windows 7 と Cygwin コンソールで作業しています。私はグーグルで検索しましたが、同様の問題は見つかりませんでした..誰かが私を助けてくれますか?

score 6 · Accepted Answer

どうやらPython 2.6より前はもう少し原始的HTMLParser.unescapeでした。

パイソン 2.5:

>>> import HTMLParser
>>> HTMLParser.HTMLParser().unescape('&copy;')
'&copy;'

Python 2.6/2.7:

>>> import HTMLParser
>>> HTMLParser.HTMLParser().unescape('&copy;')
u'\xa9'

2.5 の実装と2.6 の実装/ 2.7 の実装を比較してください。

score 1 · Accepted Answer

このサイトにはいくつかの解決策がリストされています。そのうちの 1 つを次に示します。

from xml.sax.saxutils import escape, unescape

html_escape_table = {
    '"': "&quot;",
    "'": "&apos;",
    "©": "&copy;"
    # etc...
}
html_unescape_table = {v:k for k, v in html_escape_table.items()}

def html_unescape(text):
    return unescape(text, html_unescape_table)

ただし、エスケープされた各シンボルを手動でリストする必要があるため、最も美しいものではありません。

編集：

これはどう？

import htmllib

def unescape(s):
    p = htmllib.HTMLParser(None)
    p.save_bgn()
    p.feed(s)
    return p.save_end()

python - HTMLParser.HTMLParser().unescape() が機能しない

3 に答える 3

Related

Reference