scrapy - cgi、wsgi などのランタイム環境での Scrapy の呼び出し

Question

オンデマンドで Web ページから情報を抽出したいと考えています。

ユーザーはフォームで URL を送信します。ページから情報を抽出し、ユーザーに表示したいと考えています。

シュミレーションしたい

スクレイピーシェル「my_url」

私のランタイムコードで。

HtmlXPathSelector (hxs) オブジェクトを提供する URL を指定するスクレイピーユーティリティはありますか?

score 0 · Accepted Answer

クローラーは、通常の Python スクリプトとして実行できます。これは、scrapy.cfg ファイルがあるプロジェクトパスから実行することで実行できます。(スクレイピー.cfg とは関係のないパスのみ)

from twisted.internet import reactor

from scrapy.crawler import Crawler

from scrapy import log, signals

create a Obj with SpiderName spider = SampleSpider(arguments_you_want_intialize_tht_object)

settings = get_project_settings() crawler = Crawler(settings) crawler.signals.connect(reactor.stop, signal=signals.spider_closed) crawler.configure() crawler.crawl(spider) crawler.start() reactor.run()

このコードを CGI スクリプトに追加して、Spider を呼び出すことができます。

scrapy - cgi、wsgi などのランタイム環境での Scrapy の呼び出し

1 に答える 1

Related

Reference