ほとんどの場合、Yelp 用の Scrapy スクリプトが動作しています。基本的に、Yelp ページのリストを提供して、すべてのページからすべてのレビューを返す必要があります。これまでのスクリプトは次のとおりです。
from scrapy.spider import Spider
from scrapy.selector import Selector
from scrapy.http import Request
import re
from yelp2.items import YelpReviewItem
RESTAURANTS = ['sixteen-chicago']
def createRestaurantPageLinks(self, response):
reviewsPerPage = 40
sel = Selector(response)
totalReviews = int(sel.xpath('//div[@class="rating-info clearfix"]//span[@itemprop="reviewCount"]/text()').extract()[0].strip().split(' ')[0])
pages = [Request(url=response.url + '?start=' + str(reviewsPerPage*(n+1)), callback=self.parse) for n in range(totalReviews/reviewsPerPage)]
return pages
class Yelp2aSpider(Spider):
name = "yelp2a"
allowed_domains = ["yelp.com"]
start_urls = ['http://www.yelp.com/biz/%s' % s for s in RESTAURANTS]
def parse(self, response):
requests = []
sel = Selector(response)
reviews = sel.xpath('//div[@class="review review-with-no-actions"]')
items = []
for review in reviews:
item = YelpReviewItem()
item['venueName'] = sel.xpath('//meta[@property="og:title"]/@content').extract()
item['reviewer'] = review.xpath('.//li[@class="user-name"]/a/text()').extract()
item['reviewerLoc'] = review.xpath('.//li[@class="user-location"]/b/text()').extract()
item['rating'] = review.xpath('.//meta[@itemprop="ratingValue"]/@content').extract()
item['reviewDate'] = review.xpath('.//meta[@itemprop="datePublished"]/@content').extract()
item['reviewText'] = review.xpath('.//p[@itemprop="description"]/text()').extract()
item['url'] = response.url
items.append(item)
return items
if response.url.find('?start=') == -1:
requests += createRestaurantPageLinks(self, response)
return requests
ただし、私が直面している問題は、この特定のスクリプトが、最初のページを除いて、要求されたすべてのレビューのすべてのページをスクレイピングすることです。最後の「if」ステートメントをコメントアウトすると、最初のページのみがスクレイピングされます。必要なのは単純な「else」コマンドだけだと思いますが、困惑しています...助けていただければ幸いです!
編集:これは、受け取った支援に基づいて現在立っているコードです...
from scrapy.spider import Spider
from scrapy.selector import Selector
from scrapy.http import Request
import re
from yelp2.items import YelpReviewItem
RESTAURANTS = ['sixteen-chicago']
def createRestaurantPageLinks(self, response):
reviewsPerPage = 40
sel = Selector(response)
totalReviews = int(sel.xpath('//div[@class="rating-info clearfix"]//span[@itemprop="reviewCount"]/text()').extract()[0].strip().split(' ')[0])
pages = [Request(url=response.url + '?start=' + str(reviewsPerPage*(n+1)), callback=self.parse) for n in range(totalReviews/reviewsPerPage)]
return pages
class Yelp2aSpider(Spider):
name = "yelp2a"
allowed_domains = ["yelp.com"]
start_urls = ['http://www.yelp.com/biz/%s' % s for s in RESTAURANTS]
def parse(self, response):
requests = []
sel = Selector(response)
reviews = sel.xpath('//div[@class="review review-with-no-actions"]')
items = []
for review in reviews:
item = YelpReviewItem()
item['venueName'] = sel.xpath('//meta[@property="og:title"]/@content').extract()
item['reviewer'] = review.xpath('.//li[@class="user-name"]/a/text()').extract()
item['reviewerLoc'] = review.xpath('.//li[@class="user-location"]/b/text()').extract()
item['rating'] = review.xpath('.//meta[@itemprop="ratingValue"]/@content').extract()
item['reviewDate'] = review.xpath('.//meta[@itemprop="datePublished"]/@content').extract()
item['reviewText'] = review.xpath('.//p[@itemprop="description"]/text()').extract()
item['url'] = response.url
yield item
if response.url.find('?start=') == -1:
requests += createRestaurantPageLinks(self, response)
for request in requests:
yield request
以下のコメントで述べたように、このコードをそのまま実行すると、必要なすべてのページがクロールされますが、すべてのレビューではなく、ページごとに 1 つのレビューしか返されません。
に変更しようとyield item
しましたが、クロールされるすべての URL に対してyield items
のエラー メッセージが返されます。ERROR: Spider must return Request, BaseItem or None, got 'list' in <GET http://www.yelp.com/biz/[...]>