0

Scrapy + Splash でクロールし、複数のプロキシを使用したい。ただし、スプラッシュは単一のプロキシhttps://splash.readthedocs.io/en/stable/api.html#proxy-profilesのみをサポートします。

[proxy]

; required
host=proxy.crawlera.com
port=8010

; optional, default is no auth
username=username
password=password

; optional, default is HTTP. Allowed values are HTTP and SOCKS5
type=HTTP

スクレイピー+スプラッシュでクロールするときに複数のプロキシを使用するには?

4

1 に答える 1

1

いくつかのオプションがあります:

  • 複数のプロファイルを使用する (Rafael Almeida がコメントで提案したように)。
  • リクエストごとに異なるプロキシ URL を渡します ( http://splash.readthedocs.io/en/stable/api.html#arg-proxyを参照)。
  • Splash Lua スクリプトを作成し、splash:on_requestコールバックでrequest:set_proxyを使用します - docs に例があります。このようにして、レンダリングされたページごとに単一のプロキシだけでなく、ページによって開始されたさまざまな要求に対して異なるプロキシを設定できます。phantomjs や selenium などの他のブラウザー自動化ツールでそれを行う方法を知りません。
于 2016-09-25T20:20:48.807 に答える