問題タブ [scrapy-splash]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

559 問題

0 投票する

1 に答える

918 参照

scrapy - Privoxy/Tor を使用したスプラッシュが機能しない (ローカルホストの競合?)

Splash は Privoxy/Tor では動作しません。それでも

Privoxy/Tor はブラウザで動作します。
Splash は通常のプロキシで動作します。yield SplashRequest(url, self.parse_func, args={'wait': 2.5, 'proxy': 'http://a_proxy_address:port', }).
Splash のない Scrapy は Privoxy 経由で動作します。yield scrapy.Request(url, callback=self.parse_func, meta={'proxy': 'http://127.0.0.1:8118'})）。

スクリプト Splash でエラー 502 を返します。

ブラウザで Splash page を開こうとすると、エラーページが表示さlocalhost:8050れます。 Privoxy was unable to socks5t-forward your request http://localhost:8050/ through localhost: SOCKS5 request failed

/etc/privoxy/config:

次の行にも追加しようとしまし/etc/privoxy/configたが、役に立ちませんでした。

2017-08-24T14:06:20.243

0 投票する

3 に答える

3342 参照

python - Scrapy CrawlSpider + Splash: linkextractor を介してリンクをたどる方法は?

部分的に機能している次のコードがあります。

コードはに対してのみ実行されますが、でstart_urls指定されたリンクはたどりません。メソッドとルールの行をrestricted_xpathsコメントアウトすると、意図したとおりに実行され、もちろん js レンダリングなしでリンクがたどられます。start_requests()process_request='start_requests',

私は2つの関連する質問を読みました.CrawlSpider with Splashが最初のURLの後にスタックし、 CrawlSpider with Splashがメソッド内で具体的に変更さscrapy.Request()れましたが、うまくいかないようです. コードの何が問題になっていますか? ありがとう、SplashRequest()start_requests()

python scrapy web-crawler scrapy-splash splash-js-render

2017-08-25T16:45:17.497

1 2 3 4 5 6 7 8 9 10

問題タブ [scrapy-splash]

scrapy - Privoxy/Tor を使用したスプラッシュが機能しない (ローカルホストの競合?)

python - Scrapy CrawlSpider + Splash: linkextractor を介してリンクをたどる方法は?

Reference