python - Pythonスクリプトからスクレイピーを実行する

Question

データを取得してデータベースに保存する必要があるため、pythonスクリプトファイルからscrapyを実行しようとしています。しかし、scrapyコマンドで実行すると

scrapy crawl argos

スクリプトは正常に実行されますが、スクリプトで実行しようとすると、このリンクをたどります

http://doc.scrapy.org/en/latest/topics/practices.html#run-scrapy-from-a-script

このエラーが発生します

$ python pricewatch/pricewatch.py update
Traceback (most recent call last):
  File "pricewatch/pricewatch.py", line 39, in <module>
    main()
  File "pricewatch/pricewatch.py", line 31, in main
    update()
  File "pricewatch/pricewatch.py", line 24, in update
    setup_crawler("argos.co.uk")
  File "pricewatch/pricewatch.py", line 13, in setup_crawler
    settings = get_project_settings()
  File "/Library/Python/2.7/site-packages/Scrapy-0.22.2-py2.7.egg/scrapy/utils/project.py", line 58, in get_project_settings
    settings_module = import_module(settings_module_path)
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/importlib/__init__.py", line 37, in import_module
    __import__(name)
ImportError: No module named settings

get_project_setting() が見つからない理由を理解できませんが、端末で Scrapy コマンドを使用すると正常に動作します

ここに私のプロジェクトのスクリーンショットがあります

ここに画像の説明を入力

pricewatch.py コードは次のとおりです。

import commands
import sys
from database import DBInstance
from twisted.internet import reactor
from scrapy.crawler import Crawler
from scrapy import log
from spiders.argosspider import ArgosSpider
from scrapy.utils.project import get_project_settings
import settings

def setup_crawler(domain):
    spider = ArgosSpider(domain=domain)
    settings = get_project_settings()
    crawler = Crawler(settings)
    crawler.configure()
    crawler.crawl(spider)
    crawler.start()

def update():
    #print "Enter a product to update:"
    #product = raw_input()
    #print product
    #db = DBInstance()
    setup_crawler("argos.co.uk")
    log.start()
    reactor.run()

def main():
    try:
        if sys.argv[1] == "update":
            update()
        elif sys.argv[1] == "database":
            #db = DBInstance()
    except IndexError:
        print "You must select a command from Update, Search, History"


if  __name__ =='__main__':
    main()

score 0 · Accepted Answer

この回答は、あなたの質問に回答し、さらに降下例を提供すると思われるこの回答から大幅にコピーされています。

次の構造を持つプロジェクトを考えてみましょう。

my_project/
    main.py                 # Where we are running scrapy from
    scraper/
        run_scraper.py               #Call from main goes here
        scrapy.cfg                   # deploy configuration file
        scraper/                     # project's Python module, you'll import your code from here
            __init__.py
            items.py                 # project items definition file
            pipelines.py             # project pipelines file
            settings.py              # project settings file
            spiders/                 # a directory where you'll later put your spiders
                __init__.py
                quotes_spider.py     # Contains the QuotesSpider class

基本的に、コマンド scrapy startproject scraperは my_project フォルダーで実行されます。run_scraper.pyファイルを外側のスクレーパーフォルダーに追加し、ファイルをmain.pyルートフォルダーとSpiders フォルダーに追加しましたquotes_spider.py。

私のメインファイル：

from scraper.run_scraper import Scraper
scraper = Scraper()
scraper.run_spiders()

私のrun_scraper.pyファイル:

from scraper.scraper.spiders.quotes_spider import QuotesSpider
from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings
import os


class Scraper:
    def __init__(self):
        settings_file_path = 'scraper.scraper.settings' # The path seen from root, ie. from main.py
        os.environ.setdefault('SCRAPY_SETTINGS_MODULE', settings_file_path)
        self.process = CrawlerProcess(get_project_settings())
        self.spiders = QuotesSpider # The spider you want to crawl

    def run_spiders(self):
        self.process.crawl(self.spider)
        self.process.start()  # the script will block here until the crawling is finished

また、パスはルートフォルダー (スクレイパーではなく my_project) に従う必要があるため、設定にはルックオーバーが必要になる場合があることに注意してください。だから私の場合：

SPIDER_MODULES = ['scraper.scraper.spiders']
NEWSPIDER_MODULE = 'scraper.scraper.spiders'

等...

python - Pythonスクリプトからスクレイピーを実行する

2 に答える 2

Related

Reference