6

説明できない非常に興味深い問題があります。

2〜6秒ごとにgooglebot(googlebots IPを検索しましたが、実際には[ホストIPを使用])は、存在しない(404s)サイト上のページ(実行中:php、apache、mongodb)を要求しています。他のロボットや人間がこのようなページをリクエストしたことはありません!ただgooglebot。

それぞれのリクエストは次のようになります。

/ 2de4f853c2853807b2e72387aa8928a4

/ ea5700c343d1a9798bc554af7c1a330e

/ e5aafa102d54ba7517703336846cc019

私たちのコードは32文字の文字列を使用しておらず、サイトの内部または外部のようなリンクはありません。codeigniterを使用しているので、最初はデフォルトのsession_idだと思いましたが、確認しましたが、そうではありません。

誰かがこのようなものを見たことがありますか?私たちのウェブサイトはいくつかのページでhistory.pushを使用していますが、これが原因でしょうか?ただのアイデア。

リクエスト例の生データ:

array (
  'date' => '2012-12-01',
  'time' => '10:01:33 PM',
  'additional_data' => 
    array (
      'server_vars' => 
        array (
          'REDIRECT_STATUS' => '200',
          'HTTP_HOST' => 'www.xxxxxxx.com',
          'HTTP_ACCEPT' => '*/*',
          'HTTP_ACCEPT_ENCODING' => 'gzip,deflate',
          'HTTP_FROM' => 'googlebot(at)googlebot.com',
          'HTTP_USER_AGENT' => 'Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)',
          'HTTP_X_FORWARDED_FOR' => 'xxxxxxx',
          'HTTP_X_FORWARDED_PORT' => '80',
          'HTTP_X_FORWARDED_PROTO' => 'http',
          'HTTP_CONNECTION' => 'keep-alive',
          'PATH' => '/sbin:/usr/sbin:/bin:/usr/bin:/home/ec2-user/ec2/bin',
          'SERVER_SIGNATURE' => '<address>Apache/2.2.22 (Amazon) Server at www.xxxxxxx.com Port 80</address>
',
          'SERVER_SOFTWARE' => 'Apache/2.2.22 (Amazon)',
          'SERVER_NAME' => 'www.xxxxxxx.com',
          'SERVER_ADDR' => 'xxxxxxxxxx',
          'SERVER_PORT' => '80',
          'REMOTE_ADDR' => '10.171.147.114',
          'REMOTE_PORT' => '40759',
          'REDIRECT_URL' => '/e5aafa102d54ba7517703336846cc019',
          'GATEWAY_INTERFACE' => 'CGI/1.1',
          'SERVER_PROTOCOL' => 'HTTP/1.1',
          'REQUEST_METHOD' => 'GET',
          'QUERY_STRING' => '',
          'REQUEST_URI' => '/e5aafa102d54ba7517703336846cc019',
          'SCRIPT_NAME' => '/index.php',
          'PATH_INFO' => '/e5aafa102d54ba7517703336846cc019',
          'PATH_TRANSLATED' => 'redirect:/index.php/e5aafa102d54ba7517703336846cc019',
          'PHP_SELF' => '/index.php/e5aafa102d54ba7517703336846cc019',
          'REQUEST_TIME' => 1354428093,
       ),
    'codeigiter_session' => 
      array (
        'session_id' => 'c795e40a279f58d9fbbf7f5501a26787',
        'ip_address' => '10.171.147.114',
        'user_agent' => 'Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)',
        'last_activity' => 1354428093,
        'user_data' => '',
    ),
  ),
)

これを理解するために他に何を集めることができますか。その非常に奇妙です。


更新: トラフィックは2つのプライマリIPアドレスから来ています。10.171.147.11410.161.46.102

これらを調べましたが、GoogleBotではありません。

この情報は、1つのIPルックアップサイトから取得しました。

IPアドレス範囲10.0.0.0– 10.255.255.255、172.16.0.0 – 172.31.255.255、192.168.0.0 – 192.168.255.255、および224.0.0.0 – 239.255.255.255は、プライベートインターネットで使用するための予約済みIPアドレスであり、これらのIPルックアップは結果を返しません。

これらのリクエストについてどうすればよいですか?これらのリクエストのポイントは何ですか?これが一種のDOS攻撃である場合、彼らはそれに対して非常に悪い仕事をしています。

4

2 に答える 2

1

この質問に答えるために、問題は aws ロード ブランサーのヘルス チェックによって作成されていました。何らかの理由で、aws は googlebot user_agent を使用してサーバー上でそれらを実行しています。

于 2012-12-03T04:11:42.580 に答える
0

ここで最初にすべきことは、できるだけ多くの IP を収集し、2 つの質問に対する答えを見つけることです。できない場合 - これは Gbot 2 ではありません。これらの IP の国はどこですか? 数十個ある場合、これは Gbot ではありません。

これは Google ボットではないように思われます。なぜなら、彼らはこの頻度でサイトマップさえもなしにサイトを監視する傾向がないからです (ニュース サイトのようないくつかの特別なケースを除いて)。

参照する

http://support.google.com/webmasters/bin/answer.py?hl=ja&answer=80553

Gbot を認識する方法を学びます。オンラインの Google ボット IP リストを試してみてください。それらは古くなっている可能性がありますが、アドレス クラスターに関する情報は引き続き提供されます。さらに、Google ボットの IP はネットワークごとに簡単にグループ化できます。

サードパーティが簡単に偽造する可能性があるため、HTTP_USER_AGENT を信頼することはできません。

あなたのサイトは、何らかのネットワークから別の攻撃を受けていると思います。

このハッシュを送信して PHP_SESSID を推測しようとしているとは思えません。PHP_SESSID が URL に表示される唯一の理由は、それを Cookie に保存しないように PHP を構成したことです (そうしなかったと思います)。攻撃する場合でも、cookie で session_id を送信する方が簡単で自然です。

送信している POST パラメータと COOKIES を確認します。これにより、より多くの情報が得られる場合があります。

于 2012-12-02T15:06:17.650 に答える