私は最近、単純な Web クローラーを作成しました。これを Web で少し使用したいと考えています。私の質問は、私が従うべき倫理規則と、それに従う方法です。robot.txt ファイルについて聞いたのですが、Python で開くにはどうすればよいですか? また、1秒あたりの最大サイト数など、私が従わなければならない他の倫理規則はありますか? それから事前に。
1 に答える
3
robot.txtは Web スパイダー用のシンプルなテキスト ファイルで、サイトの所有者は、Web スパイダーによってインデックスを作成したくないページをリストしました。しかし、ほとんどの場合、ウェブスパイダーのふりをしてユーザーにスクラップできるのは興味深い情報ではありません。
ページへのすべてのリクエストには、プロキシ サーバーのUser_agent (より多くの例を含むロシア語バージョン) メタデータが含まれます。 .html ; FeedFetcher-Google のように) また、IE 6.0 ユーザーのふりをすることもできます。
倫理と道徳の範囲 - 刑法の違反ではありません。地下にコンテンツがある各サイトには、ほとんどの場合、ソース資料を参照するように求められる「プライバシー」リンクがあります。
かつて、毎秒15ページの速さでニュースサイトをスクレイピングしたところ、DDoS攻撃で10分間BANされましたが、アクションの間隔を200msに設定すると. すべてが機能しました。ただし、サーバーの構成によって異なります。
于 2013-08-24T19:32:20.930 に答える