すべての主要な検索エンジンの検索結果からサイトが消えてから数か月後、私はついに考えられる理由を見つけました。
WebBugを使用してサーバーヘッダーを調査しました。リクエストがHEADまたはGETの場合の違いを確認してください。
HEAD送信データ:
HEAD / HTTP/1.1
Host: www.attu.it
Connection: close
Accept: */*
User-Agent: WebBug/5.0
HEAD受信データ:
HTTP/1.1 403 Forbidden
Date: Tue, 10 Aug 2010 23:01:00 GMT
Server: Apache/2.2
Connection: close
Content-Type: text/html; charset=iso-8859-1
送信データを取得:
GET / HTTP/1.1
Host: www.attu.it
Connection: close
Accept: */*
User-Agent: WebBug/5.0
GET受信データ:
HTTP/1.1 200 OK
Date: Tue, 10 Aug 2010 23:06:15 GMT
Server: Apache/2.2
Last-Modified: Fri, 08 Jan 2010 08:58:01 GMT
ETag: "671f91b-2d2-47ca362815840"
Accept-Ranges: bytes
Content-Length: 722
Connection: close
Content-Type: text/html
// HTML code here
現在、ブラウザはデフォルトでGETリクエストを送信します(少なくともこれはfirebugが言うことです)。クローラーが代わりにHEADリクエストを送信することは可能ですか?もしそうなら、なぜこのサーバーだけが403で応答し、私が管理している他のサイトの他のサーバーは応答しないのですか?
重要な場合、.htaccessに存在する唯一の行は(クライアントがサーバーへのアクセスを許可したくないため、クライアントが変更した場合を除く)です。
AddType text/x-component .htc
更新
ありがとう@Ryk。FireBugとFiddlerはどちらもGETリクエストを送信し、200(または300)の応答を取得します。予想通り。だから私はそれがサーバーの悪い設定(ホスティングが何百万ものクライアントを持つ大手企業からのものであるため奇妙ですが)か、彼らが.htaccessに置いたもののどちらかだと思います。彼らは私に彼らのアカウントを調べさせなければならないでしょう。
私の質問の2番目の部分は、それがどの検索エンジンにもWebサイトが表示されない原因である可能性があるかどうかでした(site:www.attu.itは結果を提供しません)。何か考えはありますか?
UPDATE 2
いじくり回した後、ルートディレクトリにphpMyAdmin robots-blocking .htaccessがあり、ロボットからのリクエストが403Forbiddenで返送されたことが判明しました。