13

私のプログラムであるコンテンツの表示に問題があります。

#! /usr/bin/python

import urllib
import re

url = "http://yahoo.com"
pattern = '''<span class="medium item-label".*?>(.*)</span>'''

website = urllib.urlopen(url)
pageContent = website.read()
result = re.findall(pattern, pageContent)

for record in result:
    print record

出力:

Masked teen killed by dad
First look in &#39;Hotel of Doom&#39;
Ex-NFL QB&#39;s sad condition
Reporter ignores warning
Romney&#39;s low bar for debates

したがって、問題は、&#39を文字に変換するためにコードに何を含める必要があるかということです。

4

2 に答える 2

17

Python2の場合:

In [16]: text = 'Ex-NFL QB&#39;s sad condition'

In [17]: import HTMLParser

In [18]: parser = HTMLParser.HTMLParser()

In [19]: parser.unescape(text)
Out[19]: u"Ex-NFL QB's sad condition"

Python3の場合:

import html.parser as htmlparser
parser = htmlparser.HTMLParser()
parser.unescape(text)
于 2012-09-28T19:30:05.833 に答える
10

Python3のソリューション

import html
html.unescape(text)
于 2019-02-13T18:34:28.123 に答える