3

私は、スパムボットが常に行う無効な要求に基づいてスパムボットのIPを禁止するコンポーネントを構築しており、ユーザーが誤って行うことはありません。

たとえば、彼らは常に空のフォームを送信しようとしたり、POSTリクエストのみを受信する必要があるURLにGETリクエストを行ったりしています。

私が知りたいのは、そうすることでグーグルボットを禁止するリスクがあるかどうかです。

彼らは遭遇するすべてのURLをクロールしないほど賢いですか?彼らはフォームのURLを避けていますか?

4

2 に答える 2

1

Googlebotはリンクをたどります。リンクが見つかったページのみを要求します。もちろん、そのリンクはサイトに存在する必要はないため、直接制御できない場合があります

RFCによると、GETリクエストに副作用があってはならないため、GooglebotはGETリクエストのみを行います。したがって、サーバーの状態を変更することはできません。ヒント:リンク(つまり「get」)を使用してサイトに変更を加えたり確認したりしないでください。変更すると、Webスパイダーがトリガーする可能性があります。

サイトの状態を変更するすべてのCGIは、安全のために、着信リクエストが実際にPOSTであることを確認する必要があります。

于 2011-05-31T15:31:17.767 に答える
1

Googlebotは無効なリクエストを行います。ヘッダーが指定するメールボックス名に「@」記号が含まれていない「From:」ヘッダーで行われたリクエストがいくつか見つかりました。他のボットもこれを行うことがあります。したがって、リクエスト内の無効なオプションのヘッダーデータに注意してください。

于 2019-12-21T07:21:53.007 に答える