私は (楽しみのために) 検索エンジンを構築していますが、私の小さなプロジェクトが、広告をクリックしたり、あらゆる種類の問題を引き起こしたりする可能性があることに気付きました。
では、優れたウェブクローラーの「エチケット」のガイドラインは何ですか?
頭に浮かぶこと:
- Robot.txt の指示に従ってください
- 同じドメインへの同時リクエスト数を制限する
- 広告リンクをたどらない?
クローラーが広告をクリックするのを止める - これは今のところ特に頭に浮かんでいます... ボットが広告を「クリック」するのを止めるにはどうすればよいですか? 広告内の URL に直接アクセスした場合、クリックとしてカウントされますか?