4

ここでスクレイピング初心者。Scrapy を使用して、単一のサイトから大量のデータを取得しています。スクリプトを実行すると、数分間は正常に動作しますが、その後速度が低下し、ほぼ停止し、スクレイピングしようとしているさまざまな URL で次のエラーのペアが継続的にスローされます。

2013-07-20 14:15:17-0700 [billboard_spider] DEBUG: Retrying <GET http://www.billboard.com/charts/1981-01-17/hot-100> (failed 1 times): Getting http://www.billboard.com/charts/1981-01-17/hot-100 took longer than 180 seconds.

2013-07-20 14:16:56-0700 [billboard_spider] DEBUG: Crawled (502) <GET http://www.billboard.com/charts/1981-01-17/hot-100> (referer: None) 

上記のエラーはさまざまな URL で山積みになり、何が原因なのかわかりません...

スクリプトは次のとおりです。

import datetime
from scrapy.item import Item, Field
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector


class BillBoardItem(Item):
    date = Field()
    song = Field()
    artist = Field()


BASE_URL = "http://www.billboard.com/charts/%s/hot-100"


class BillBoardSpider(BaseSpider):
    name = "billboard_spider"
    allowed_domains = ["billboard.com"]

    def __init__(self):
        date = datetime.date(year=1975, month=12, day=27)

        self.start_urls = []
        while True:
            if date.year >= 2013:
                break

            self.start_urls.append(BASE_URL % date.strftime('%Y-%m-%d'))
            date += datetime.timedelta(days=7)

    def parse(self, response):
        hxs = HtmlXPathSelector(response)
        date = hxs.select('//span[@class="chart_date"]/text()').extract()[0]

        songs = hxs.select('//div[@class="listing chart_listing"]/article')
        item = BillBoardItem()
        item['date'] = date
        for song in songs:
            try:
                track = song.select('.//header/h1/text()').extract()[0]
                track = track.rstrip()
                item['song'] = track
                item['artist'] = song.select('.//header/p[@class="chart_info"]/a/text()').extract()[0]
                break
            except:
                continue 

         yield item
4

1 に答える 1

4

スパイダーは私のために機能し、問題なくデータをスクレイピングします。だから、@Tiagoが想定したように、あなたは禁止されました。

将来禁止されないようにする方法を読み、スクレイピー設定を適切に微調整してください。私はDOWNLOAD_DELAYあなたのIPを増やしてローテーションしようとすることから始めます.

また、 seleniumなどの実際の自動化されたブラウザーの使用に切り替えることを検討してください。

また、RSS XML フィード ( http://www.billboard.com/rss ) から日付を取得できるかどうかも確認してください。

それが役立つことを願っています。

于 2013-07-21T18:29:15.007 に答える