問題タブ [scrapy-splash]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scrapy - Privoxy/Tor を使用したスプラッシュが機能しない (ローカルホストの競合?)
Splash は Privoxy/Tor では動作しません。それでも
- Privoxy/Tor はブラウザで動作します。
- Splash は通常のプロキシで動作します。
yield SplashRequest(url, self.parse_func, args={'wait': 2.5, 'proxy': 'http://a_proxy_address:port', })
. - Splash のない Scrapy は Privoxy 経由で動作します。
yield scrapy.Request(url, callback=self.parse_func, meta={'proxy': 'http://127.0.0.1:8118'})
)。
スクリプト Splash でエラー 502 を返します。
ブラウザで Splash page を開こうとすると、エラー ページが表示さlocalhost:8050
れます。
Privoxy was unable to socks5t-forward your request http://localhost:8050/ through localhost: SOCKS5 request failed
/etc/privoxy/config:
次の行にも追加しようとしまし/etc/privoxy/config
たが、役に立ちませんでした。
python - Scrapy CrawlSpider + Splash: linkextractor を介してリンクをたどる方法は?
部分的に機能している次のコードがあります。
コードは に対してのみ実行されますが、でstart_urls
指定されたリンクはたどりません。メソッドとルールの行をrestricted_xpaths
コメントアウトすると、意図したとおりに実行され、もちろん js レンダリングなしでリンクがたどられます。start_requests()
process_request='start_requests',
私は2つの関連する質問を読みました.CrawlSpider with Splashが最初のURLの後にスタックし、 CrawlSpider with Splashがメソッド内で具体的に変更さscrapy.Request()
れましたが、うまくいかないようです. コードの何が問題になっていますか? ありがとう、SplashRequest()
start_requests()