web-crawler - 優れた Web クローラーの「エチケット」のガイドライン

Question

私は (楽しみのために) 検索エンジンを構築していますが、私の小さなプロジェクトが、広告をクリックしたり、あらゆる種類の問題を引き起こしたりする可能性があることに気付きました。

では、優れたウェブクローラーの「エチケット」のガイドラインは何ですか?

頭に浮かぶこと：

クローラーが広告をクリックするのを止める - これは今のところ特に頭に浮かんでいます... ボットが広告を「クリック」するのを止めるにはどうすればよいですか? 広告内の URL に直接アクセスした場合、クリックとしてカウントされますか?

score 3 · Accepted Answer

robots.txt 命令だけを読むわけではありません。noindex と nofollow を含むメタタグも表示されるはずです。

広告の質問についてはわかりませんが、リンクを読んだだけでそのページにもう一度アクセスすると、入力されたページにはそのアドレスを取得した方法に関する情報がなく、サイトに請求することはできません。「疑似クリック」について

2 に答える 2