さまざまなニュース アウトレット用の Web スクレイパーを作成しています。The Hindu
新聞用に作ってみました。
アーカイブに記載されているさまざまなリンクからニュースを取得したい. http://www.thehindu.com/archive/web/2010/06/19/
次の日、つまり 2010 年 6 月 19日に記載されているリンクでニュースを取得したいとします。
今、私は次のコード行を書きました:
import mechanize
from bs4 import BeautifulSoup
url = "http://www.thehindu.com/archive/web/2010/06/19/"
br = mechanize.Browser()
htmltext = br.open(url).read()
articletext = ""
soup = BeautifulSoup(htmltext)
for tag in soup.findAll('li', attrs={"data-section":"Business"}):
articletext += tag.contents[0]
print articletext
しかし、必要な結果を得ることができません。私は基本的に立ち往生しています。誰かがそれを整理するのを手伝ってくれますか?