4

これらは、Pythonクローラーの定義です。

from __future__ import with_statement

from eventlet.green import urllib2
import eventlet
import re
import urlparse
from bs4 import BeautifulSoup, SoupStrainer
import sqlite3
import datetime

BeautifulSoupで動作している再帰的なcralwerに回転プロキシ(開いているスレッドごとに1つのプロキシ)を追加するにはどうすればよいですか?

Mechaniseのブラウザを使用している場合、プロキシを追加する方法を知っています。

br = Browser()
br.set_proxies({'http':'http://username:password@proxy:port',
'https':'https://username:password@proxy:port'})

しかし、BeautifulSoupがどのようなソリューションを必要とするのかを具体的に知りたいと思います。

ご助力ありがとうございます!

4

2 に答える 2

2

HTTP プロキシを使用した BeautifulSoup の例をご覧ください。

http://monzool.net/blog/2007/10/15/html-parsing-with-beautiful-soup/

于 2012-10-19T08:22:54.167 に答える