オンデマンドで Web ページから情報を抽出したいと考えています。
ユーザーはフォームで URL を送信します。ページから情報を抽出し、ユーザーに表示したいと考えています。
シュミレーションしたい
スクレイピーシェル「my_url」
私のランタイムコードで。
HtmlXPathSelector (hxs) オブジェクトを提供する URL を指定するスクレイピー ユーティリティはありますか?
オンデマンドで Web ページから情報を抽出したいと考えています。
ユーザーはフォームで URL を送信します。ページから情報を抽出し、ユーザーに表示したいと考えています。
シュミレーションしたい
スクレイピーシェル「my_url」
私のランタイムコードで。
HtmlXPathSelector (hxs) オブジェクトを提供する URL を指定するスクレイピー ユーティリティはありますか?
クローラーは、通常の Python スクリプトとして実行できます。これは、scrapy.cfg ファイルがあるプロジェクト パスから実行することで実行できます。(スクレイピー.cfg とは関係のないパスのみ)
from twisted.internet import reactor
from scrapy.crawler import Crawler
from scrapy import log, signals
create a Obj with SpiderName
spider = SampleSpider(arguments_you_want_intialize_tht_object)
settings = get_project_settings()
crawler = Crawler(settings)
crawler.signals.connect(reactor.stop, signal=signals.spider_closed)
crawler.configure()
crawler.crawl(spider)
crawler.start()
reactor.run()
このコードを CGI スクリプトに追加して、Spider を呼び出すことができます。