私は、スパムボットが常に行う無効な要求に基づいてスパムボットのIPを禁止するコンポーネントを構築しており、ユーザーが誤って行うことはありません。
たとえば、彼らは常に空のフォームを送信しようとしたり、POSTリクエストのみを受信する必要があるURLにGETリクエストを行ったりしています。
私が知りたいのは、そうすることでグーグルボットを禁止するリスクがあるかどうかです。
彼らは遭遇するすべてのURLをクロールしないほど賢いですか?彼らはフォームのURLを避けていますか?
Googlebotはリンクをたどります。リンクが見つかったページのみを要求します。もちろん、そのリンクはサイトに存在する必要はないため、直接制御できない場合があります。
RFCによると、GETリクエストに副作用があってはならないため、GooglebotはGETリクエストのみを行います。したがって、サーバーの状態を変更することはできません。ヒント:リンク(つまり「get」)を使用してサイトに変更を加えたり確認したりしないでください。変更すると、Webスパイダーがトリガーする可能性があります。
サイトの状態を変更するすべてのCGIは、安全のために、着信リクエストが実際にPOSTであることを確認する必要があります。
Googlebotは無効なリクエストを行います。ヘッダーが指定するメールボックス名に「@」記号が含まれていない「From:」ヘッダーで行われたリクエストがいくつか見つかりました。他のボットもこれを行うことがあります。したがって、リクエスト内の無効なオプションのヘッダーデータに注意してください。