python - ミドルウェアを使用して、scrapy による Web サイトの二重アクセスを防止する

Question

次のような問題があります。

したがって、Web サイトが複数回クロールされることは望ましくありません。私はミドルウェアを改造し、print ステートメントを作成して、既に見た Web サイトを正しく分類するかどうかをテストしました。します。

それにもかかわらず、受け取ったjson-Fileには二重のエントリが含まれているため、解析は複数回実行されているようです。

from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
from scrapy.item import Item

from crawlspider.items import KickstarterItem

from HTMLParser import HTMLParser

### code for stripping off HTML tags:
class MLStripper(HTMLParser):
    def __init__(self):
        self.reset()
        self.fed = []
    def handle_data(self, d):
        self.fed.append(d)
    def get_data(self):
        return str(''.join(self.fed))

def strip_tags(html):
    s = MLStripper()
    s.feed(html)
    return s.get_data()
###

items = []

class MySpider(CrawlSpider):
    name = 'kickstarter'
    allowed_domains = ['kickstarter.com']
    start_urls = ['http://www.kickstarter.com']

    rules = (
        # Extract links matching 'category.php' (but not matching 'subsection.php')
        # and follow links from them (since no callback means follow=True by default).
        Rule(SgmlLinkExtractor(allow=('discover/categories/comics', ))),

        # Extract links matching 'item.php' and parse them with the spider's method parse_item
        Rule(SgmlLinkExtractor(allow=('projects/', )), callback='parse_item'),
    )

    def parse_item(self, response):
        self.log('Hi, this is an item page! %s' % response.url)

        hxs = HtmlXPathSelector(response)
        item = KickstarterItem()

        item['date'] = hxs.select('//*[@id="about"]/div[2]/ul/li[1]/text()').extract()
        item['projname'] = hxs.select('//*[@id="title"]/a').extract()
        item['projname'] = strip_tags(str(item['projname']))

        item['projauthor'] = hxs.select('//*[@id="name"]')
        item['projauthor'] = item['projauthor'].select('string()').extract()[0]

        item['backers'] = hxs.select('//*[@id="backers_count"]/data').extract()
        item['backers'] = strip_tags(str(item['backers']))

        item['collmoney'] = hxs.select('//*[@id="pledged"]/data').extract()
        item['collmoney'] = strip_tags(str(item['collmoney']))

        item['goalmoney'] = hxs.select('//*[@id="stats"]/h5[2]/text()').extract()
        items.append(item)
        return items

私のitems.pyは次のようになります：

# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/topics/items.html

from scrapy.item import Item, Field

class KickstarterItem(Item):
    # define the fields for your item here like:
    date = Field()
    projname = Field()
    projauthor = Field()
    backers = Field()
    collmoney = Field()
    goalmoney = Field()
    pass

私のミドルウェアは次のようになります。

import os

from scrapy.dupefilter import RFPDupeFilter
from scrapy.utils.request import request_fingerprint

class CustomFilter(RFPDupeFilter):
def __getid(self, url):
    mm = url.split("/")[4] #extracts project-id (is a number) from project-URL
    print "_____________", mm
    return mm

def request_seen(self, request):
    fp = self.__getid(request.url)
    self.fingerprints.add(fp)
    if fp in self.fingerprints and fp.isdigit(): # .isdigit() checks wether fp comes from a project ID
        print "______fp is a number (therefore a project-id) and has been encountered before______"
        return True
    if self.file:
        self.file.write(fp + os.linesep)

次の行を settings.py に追加しました。

DUPEFILTER_CLASS = 'crawlspider.duplicate_filter.CustomFilter'

「スクレイピークロールキックスターター -o items.json -t json」を使用してスクリプトを呼び出します。次に、ミドルウェアコードからの正しい print ステートメントを確認します。json に同じデータを含む複数のエントリが含まれている理由について何かコメントはありますか?

score 1 · Accepted Answer

したがって、これらは重複を削除した 3 つの変更です。

これをsettings.pyに追加しました： ITEM_PIPELINES = ['crawlspider.pipelines.DuplicatesPipeline',]

パイプライン.pyに関数DuplicatesPipelineを追加したことをスクレイピーに知らせるには:

from scrapy import signals
from scrapy.exceptions import DropItem

class DuplicatesPipeline(object):

    def __init__(self):
        self.ids_seen = set()

    def process_item(self, item, spider):
        if item['projname'] in self.ids_seen:
            raise DropItem("Duplicate item found: %s" % item)
        else:
            self.ids_seen.add(item['projname'])
            return item

スパイダーを調整する必要はなく、以前に投稿した dupefilter/ミドルウェアのものを使用しないでください。

しかし、アイテムオブジェクトが評価されてドロップされる可能性がある前に、最初にアイテムオブジェクトを作成する必要があるため、私のソリューションではコミュニケーションが減少しないと感じました。しかし、私はそれで大丈夫です。

（質問者が見つけた解決策、回答に移動）

python - ミドルウェアを使用して、scrapy による Web サイトの二重アクセスを防止する

1 に答える 1

Related

Reference