0

スクレイピーに問題があります。Scrapy Spider を使用して Web サイトにアクセスするとき。20 ~ 30 分後、ウェブサイトでクローラーがブロックされます。Scrapy は常に 500 コードを返します。(DELAY_TIME = 10 秒)

しかし、スクレイピーを停止してすぐに開始すると。正常にクロールできます。このウェブサイトは、セッションが多くのページを表示できるのを防ぐと思いますか?

実行時にスクレイピーのセッションを変更するにはどうすればよいですか? または、この問題を解決しますか?

4

1 に答える 1

3

この飽和状態に対処するには、さまざまな方法があります。

まずroot、Web サイトに配置される robots.txt ファイルを確認する必要があります。このウェブサイトでスクレイピングが許可されているかどうかを確認するため。

COOKIES_ENABLED=Falseウェブサイトで Cookie を無効にすることが許可されている場合にのみ、設定を試みます。ほとんどの Web サイトは、Cookie を使用してユーザーのアクティビティを追跡します。

于 2013-04-10T07:34:31.443 に答える