問題タブ [scrapy-splash]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Scrapy スパイダーを別のスパイダーから開始する方法
1 つの Scrapy プロジェクトに 2 つのスパイダーがあります。Spider1 は、ページのリストまたは Web サイト全体をクロールし、コンテンツを分析します。Spider2 は Splash を使用して Google で URL を取得し、そのリストを Spider1 に渡します。
そのため、Spider1 はクロールしてコンテンツを分析し、Spider2 から呼び出されることなく使用できます。
Spider2 のコード
Spider2 を実行しているときに、次のエラーが発生しますtwisted.internet.error.ReactorAlreadyRunning
。Spider1 は、URL のリストなしで呼び出されます。Scrapy のドキュメントでアドバイスされているように CrawlRunner を使用してみましたが、同じ問題です。parse メソッド内で CrawlProcess を使用してみましたが、「機能します」が、まだエラーメッセージが表示されます。parse メソッド内で CrawlRunner を使用すると、機能しません。
python - リストが返された場合にスプラッシュから取得する方法は?
こちらのスプラッシュ ソースで提供されている例に従ってください: https://github.com/scrapinghub/splash/blob/master/splash/examples/render-multiple.lua
その lua スクリプトでは、json オブジェクトの代わりに lua テーブルが返されました。
スクレイピースプラッシュを使用する場合、lua スクリプトを使用してテーブル/辞書の代わりに配列/リストを取得するにはどうすればよいですか?