1

オンデマンドで Web ページから情報を抽出したいと考えています。

ユーザーはフォームで URL を送信します。ページから情報を抽出し、ユーザーに表示したいと考えています。

シュミレーションしたい

スクレイピーシェル「my_url」

私のランタイムコードで。

HtmlXPathSelector (hxs) オブジェクトを提供する URL を指定するスクレイピー ユーティリティはありますか?

4

1 に答える 1

0

クローラーは、通常の Python スクリプトとして実行できます。これは、scrapy.cfg ファイルがあるプロジェクト パスから実行することで実行できます。(スクレイピー.cfg とは関係のないパスのみ)

from twisted.internet import reactor

from scrapy.crawler import Crawler

from scrapy import log, signals

create a Obj with SpiderName spider = SampleSpider(arguments_you_want_intialize_tht_object)

settings = get_project_settings() crawler = Crawler(settings) crawler.signals.connect(reactor.stop, signal=signals.spider_closed) crawler.configure() crawler.crawl(spider) crawler.start() reactor.run()

このコードを CGI スクリプトに追加して、Spider を呼び出すことができます。

于 2015-10-14T18:16:55.833 に答える