python - Python Mechanize HTTP エラー 403: robots.txt によって許可されていない要求

翻译自：https://stackoverflow.com/questions/18821305 2013-09-16T06:02:54.027

4214 次

そこで、記事のニュース Web ページを Web スクレイプする Django Web サイトを作成しました。

HTTP Error 403: request disallowed by robots.txt

私はすべてを試しました、私のコードを見てください（スクレイピングする部分だけ）：

br = mechanize.Browser()
page = br.open(web)
br.set_handle_robots(False)
br.set_handle_equiv(False)
br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]
    #BeautifulSoup 
htmlcontent = page.read()
soup = BeautifulSoup(htmlcontent)

set_hande_robots(Flase) などの前に de br.open を使用しようとしました。それもうまくいきませんでした。

このサイトを通過する方法はありますか?

python - Python Mechanize HTTP エラー 403: robots.txt によって許可されていない要求

1 に答える 1

Related

Reference