問題タブ [scrapy-splash]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

559 問題

0 投票する

1 に答える

1690 参照

python - Scrapy スパイダーを別のスパイダーから開始する方法

1 つの Scrapy プロジェクトに 2 つのスパイダーがあります。Spider1 は、ページのリストまたは Web サイト全体をクロールし、コンテンツを分析します。Spider2 は Splash を使用して Google で URL を取得し、そのリストを Spider1 に渡します。

そのため、Spider1 はクロールしてコンテンツを分析し、Spider2 から呼び出されることなく使用できます。

Spider2 のコード

Spider2 を実行しているときに、次のエラーが発生しますtwisted.internet.error.ReactorAlreadyRunning。Spider1 は、URL のリストなしで呼び出されます。Scrapy のドキュメントでアドバイスされているように CrawlRunner を使用してみましたが、同じ問題です。parse メソッド内で CrawlProcess を使用してみましたが、「機能します」が、まだエラーメッセージが表示されます。parse メソッド内で CrawlRunner を使用すると、機能しません。

2017-07-25T10:54:25.203

0 投票する

1 に答える

938 参照

python - リストが返された場合にスプラッシュから取得する方法は?

こちらのスプラッシュソースで提供されている例に従ってください: https://github.com/scrapinghub/splash/blob/master/splash/examples/render-multiple.lua

その lua スクリプトでは、json オブジェクトの代わりに lua テーブルが返されました。

スクレイピースプラッシュを使用する場合、lua スクリプトを使用してテーブル/辞書の代わりに配列/リストを取得するにはどうすればよいですか?

python web-scraping scrapy scrapy-splash

2017-08-02T13:44:01.043

1 2 3 4 5 6 7 8 9 10

問題タブ [scrapy-splash]

python - Scrapy スパイダーを別のスパイダーから開始する方法

python - リストが返された場合にスプラッシュから取得する方法は?

Reference