http - Googleボットは無効なリクエストを行いますか？

Question

私は、スパムボットが常に行う無効な要求に基づいてスパムボットのIPを禁止するコンポーネントを構築しており、ユーザーが誤って行うことはありません。

たとえば、彼らは常に空のフォームを送信しようとしたり、POSTリクエストのみを受信する必要があるURLにGETリクエストを行ったりしています。

私が知りたいのは、そうすることでグーグルボットを禁止するリスクがあるかどうかです。

彼らは遭遇するすべてのURLをクロールしないほど賢いですか？彼らはフォームのURLを避けていますか？

score 1 · Accepted Answer

Googlebotはリンクをたどります。リンクが見つかったページのみを要求します。もちろん、そのリンクはサイトに存在する必要はないため、直接制御できない場合があります。

RFCによると、GETリクエストに副作用があってはならないため、GooglebotはGETリクエストのみを行います。したがって、サーバーの状態を変更することはできません。ヒント：リンク（つまり「get」）を使用してサイトに変更を加えたり確認したりしないでください。変更すると、Webスパイダーがトリガーする可能性があります。

サイトの状態を変更するすべてのCGIは、安全のために、着信リクエストが実際にPOSTであることを確認する必要があります。

score 1 · Accepted Answer

Googlebotは無効なリクエストを行います。ヘッダーが指定するメールボックス名に「@」記号が含まれていない「From：」ヘッダーで行われたリクエストがいくつか見つかりました。他のボットもこれを行うことがあります。したがって、リクエスト内の無効なオプションのヘッダーデータに注意してください。

http - Googleボットは無効なリクエストを行いますか？

2 に答える 2

Related

Reference