7

いくつかの Web サイトで問題なく Scrapy シェルを使用していますが、ロボット (robots.txt) がサイトへのアクセスを許可しない場合に問題が発生します。Scrapy によるロボットの検出を無効にするにはどうすればよいですか (存在を無視します)? 前もって感謝します。 Scrapy によって作成されたプロジェクトについて話しているのではなく、Scrapy シェル コマンド:scrapy shell 'www.example.com'

4

2 に答える 2

9

プロジェクトディレクトリから Scrapy を実行scrapy shellすると、プロジェクトが使用されますsettings.py。プロジェクトの外で実行すると、scrapy はデフォルト設定を使用します。--setただし、フラグを介して設定をオーバーライドおよび追加できます。
したがって、設定をオフにするには、次のようにしROBOTSTXT_OBEYます。

scrapy shell http://stackoverflow.com --set="ROBOTSTXT_OBEY=False"
于 2016-11-26T23:28:12.200 に答える