2
from scrapy.spider import BaseSpider

class dmozSpider(BaseSpider):
    name = "dmoz"
    allowed_domains = ["dmoz.org"]
    start_urls = [
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
    ]

    def parse(self, response):
        filename = response.url.split("/")[-2]
        open(filename, 'wb').write(response.body)

次に、「スクレイピー クロール dmoz」を実行すると、次のエラーが発生しました。

2013-09-14 13:20:56+0700 [dmoz] DEBUG: 再試行 http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/> (1回失敗): 相手側に接続した非クリーンな方法で失われました。

これを修正する方法を知っている人はいますか?

4

1 に答える 1

2

インターネット接続を確認するか、プロキシを使用している場合は、プロキシ認証用の環境変数を設定する必要があります。

Windows では、次の手順を試してください。

  1. Win+ R'systempropertiesadvanced' と入力します (引用符なし)
  2. 「環境変数...」ボタンをクリックします
  3. 2 つの新しい変数を追加します (ユーザー/システム変数のどちらでもかまいません)。
名前 | 価値
------------+--------------------------------  
HTTP_PROXY | http://ユーザー名:パスワード@ホスト:ポート
HTTPS_PROXY | https://ユーザー名:パスワード@ホスト:ポート

別の方法: setting-proxy-env

于 2013-09-18T07:09:52.030 に答える