問題タブ [scrapy-splash]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
918 参照

scrapy - Privoxy/Tor を使用したスプラッシュが機能しない (ローカルホストの競合?)

Splash は Privoxy/Tor では動作しません。それでも

  • Privoxy/Tor はブラウザで動作します。
  • Splash は通常のプロキシで動作します。yield SplashRequest(url, self.parse_func, args={'wait': 2.5, 'proxy': 'http://a_proxy_address:port', }).
  • Splash のない Scrapy は Privoxy 経由で動作します。yield scrapy.Request(url, callback=self.parse_func, meta={'proxy': 'http://127.0.0.1:8118'}))。

スクリプト Splash でエラー 502 を返します。

ブラウザで Splash page を開こうとすると、エラー ページが表示さlocalhost:8050れます。 Privoxy was unable to socks5t-forward your request http://localhost:8050/ through localhost: SOCKS5 request failed

/etc/privoxy/config:

次の行にも追加しようとしまし/etc/privoxy/configたが、役に立ちませんでした。

0 投票する
3 に答える
3342 参照

python - Scrapy CrawlSpider + Splash: linkextractor を介してリンクをたどる方法は?

部分的に機能している次のコードがあります。

コードは に対してのみ実行されますが、でstart_urls指定されたリンクはたどりません。メソッドとルールの行をrestricted_xpathsコメントアウトすると、意図したとおりに実行され、もちろん js レンダリングなしでリンクがたどられます。start_requests()process_request='start_requests',

私は2つの関連する質問を読みました.CrawlSpider with Splashが最初のURLの後にスタックし、 CrawlSpider with Splashがメソッド内で具体的に変更さscrapy.Request()れましたが、うまくいかないようです. コードの何が問題になっていますか? ありがとう、SplashRequest()start_requests()