python - Python で Web サイトからテキストを読み取る方法

Question

このウェブサイトからいくつかの情報を読みたいと思います: http://www.federalreserve.gov/monetarypolicy/beigebook/beigebook201301.htm

次のコードがあり、HTML ソースを適切に読み取ります

def Connect2Web():
    aResp = urllib2.urlopen("http://www.federalreserve.gov/monetarypolicy/" + 
    "beigebook/beigebook201301.htm")

    web_pg = aResp.read()

    print web_pg

ただし、ほとんどの HTML パーサーはファイルまたは元の Web サイトを必要とするため、この情報を解析する方法がわかりません。必要な情報は既に文字列に含まれています。

score 1 · Accepted Answer

jQuery が好きならpyQueryを使う

皮切りに

from pyquery import PyQuery as pq

d = pq(web_pg)

あるいは

from pyquery import PyQuery as pq

d = pq(url="http://www.federalreserve.gov/monetarypolicy/beigebook/beigebook201301.htm")

d は jQuery の $ のようなものです。

p = d("#hello") # get element with id="hello"
print p.html() # print as html

p = d('#content p:first') # get first <p> from element with id="content"
print p.text() # print as text

score 1 · Accepted Answer

1

from bs4 import BeautifulSoup
soup = BeautifulSoup(web_pg)

于 2013-05-20T02:32:44.907 に答える

python - Python で Web サイトからテキストを読み取る方法

4 に答える 4

Related

Reference