web-scraping - Web クローラーを使用した倫理

Question

私は最近、単純な Web クローラーを作成しました。これを Web で少し使用したいと考えています。私の質問は、私が従うべき倫理規則と、それに従う方法です。robot.txt ファイルについて聞いたのですが、Python で開くにはどうすればよいですか? また、1秒あたりの最大サイト数など、私が従わなければならない他の倫理規則はありますか? それから事前に。

score 3 · Accepted Answer

robot.txtは Web スパイダー用のシンプルなテキストファイルで、サイトの所有者は、Web スパイダーによってインデックスを作成したくないページをリストしました。しかし、ほとんどの場合、ウェブスパイダーのふりをしてユーザーにスクラップできるのは興味深い情報ではありません。

ページへのすべてのリクエストには、プロキシサーバーのUser_agent (より多くの例を含むロシア語バージョン) メタデータが含まれます。 .html ; FeedFetcher-Google のように) また、IE 6.0 ユーザーのふりをすることもできます。

倫理と道徳の範囲 - 刑法の違反ではありません。地下にコンテンツがある各サイトには、ほとんどの場合、ソース資料を参照するように求められる「プライバシー」リンクがあります。

かつて、毎秒15ページの速さでニュースサイトをスクレイピングしたところ、DDoS攻撃で10分間BANされましたが、アクションの間隔を200msに設定すると. すべてが機能しました。ただし、サーバーの構成によって異なります。

web-scraping - Web クローラーを使用した倫理

1 に答える 1

Related

Reference