search-engine - Googleクローラーはrobots.txtを見つけましたが、ダウンロードできません

Question

このrobots.txtの何が問題になっているのか誰か教えてもらえますか？

http://bizup.cloudapp.net/robots.txt

以下は、Googleウェブマスターツールで発生するエラーです。

Sitemap errors and warnings
Line    Status  Details
Errors  -   
Network unreachable: robots.txt unreachable
We were unable to crawl your Sitemap because we found a robots.txt file at the root of
your site but were unable to download it. Please ensure that it is accessible or remove
it completely.

実際、上記のリンクは、アクションロボットに向かうルートのマッピングです。このアクションは、ストレージからファイルを取得し、コンテンツをテキスト/プレーンとして返します。グーグルは彼らがファイルをダウンロードすることができないと言います。そのせいですか？

score 4 · Accepted Answer

robots.txtを読み取っているように見えますが、robots.txtは、実際にはhttp://bizup.cloudappである場合、 http：//bizup.cloudapp.net/robots.txt がXMLサイトマップのURLでもあると主張します。 .net/sitemap.xml。このエラーは、Googleがrobots.txtをXMLサイトマップとして解析しようとしたことが原因のようです。robots.txtを次のように変更する必要があります

User-agent: *
Allow: /
Sitemap: http://bizup.cloudapp.net/sitemap.xml

編集

実際にはそれよりも少し深くなり、Googlebotはサイトにページをまったくダウンロードできません。Googlebotがrobots.txtまたはホームページのいずれかをリクエストしたときに返される例外は次のとおりです。

このアプリケーションでは、CookielessFormsAuthenticationはサポートされていません。

例外の詳細：System.Web.HttpException：CookielessFormsAuthenticationはこのアプリケーションではサポートされていません。

[HttpException (0x80004005): Cookieless Forms Authentication is not supported for this application.]
AzureBright.MvcApplication.FormsAuthentication_OnAuthenticate(Object sender, FormsAuthenticationEventArgs args) in C:\Projectos\AzureBrightWebRole\Global.asax.cs:129
System.Web.Security.FormsAuthenticationModule.OnAuthenticate(FormsAuthenticationEventArgs e) +11336832
System.Web.Security.FormsAuthenticationModule.OnEnter(Object source, EventArgs eventArgs) +88
System.Web.SyncEventExecutionStep.System.Web.HttpApplication.IExecutionStep.Execute() +80
System.Web.HttpApplication.ExecuteStep(IExecutionStep step, Boolean& completedSynchronously) +266

FormsAuthenticationは、GooglebotがCookieをサポートしていないことを認識しているため、Cookieなしモードを使用しようとしていますが、FormsAuthentication_OnAuthenticateメソッドの何かが、Cookieなし認証を受け入れたくないため、例外をスローしています。

それを回避する最も簡単な方法は、web.configで以下を変更することだと思います。これにより、FormsAuthenticationがCookieなしモードを使用しようとするのを防ぎます...

<authentication mode="Forms"> 
    <forms cookieless="UseCookies" ...>
    ...

score 2 · Accepted Answer

この問題を簡単な方法で修正しました。robot.txtファイル（index.htmlファイルと同じディレクトリにある）を追加するだけで、すべてのアクセスが許可されます。私はそれを省略し、その方法ですべてのアクセスを許可するつもりでしたが、おそらくGoogle Webmaster Toolsは、ISPによって制御されている別のrobot.txtを見つけましたか？

したがって、少なくとも一部のISPでは、この可能性のあるグリッチを防ぐために、ボットを除外したくない場合でも、robot.txtファイルを用意する必要があるようです。

score 1 · Accepted Answer

robots.txtファイルを生成しているスクリプトに問題があります。GoogleBotがファイルにアクセスしているとき、それは取得してい500 Internal Server Errorます。ヘッダーチェックの結果は次のとおりです。

リクエスト：http：//bizup.cloudapp.net/robots.txt
GET /robots.txt HTTP / 1.1
接続：Keep-Alive
キープアライブ：300
承認：*/*
ホスト：bizup.cloudapp.net
Accept-Language：en-us
Accept-Encoding：gzip、deflate
ユーザーエージェント：Mozilla / 5.0（互換性; Googlebot / 2.1; + http：//www.google.com/bot.html）

サーバーの応答：500内部サーバーエラー
キャッシュ制御：プライベート
コンテンツタイプ：text / html; charset = utf-8
サーバー：Microsoft-IIS / 7.0
X-AspNet-バージョン：4.0.30319
X-Powered-By：ASP.NET
日付：2010年8月19日木曜日16:52:09 GMT
コンテンツ-長さ：4228
最終目的地ページ

ここでヘッダーをテストできますhttp://www.seoconsultants.com/tools/headers/#Report

score 1 · Accepted Answer

robots.txtを取得しても問題ありません

User-agent: *
Allow: /
Sitemap: http://bizup.cloudapp.net/robots.txt

ただし、robots.txtの再帰呼び出しを実行していませんか？

サイトマップはxmlファイルであると想定されています。ウィキペディアを参照してください。

search-engine - Googleクローラーはrobots.txtを見つけましたが、ダウンロードできません

4 に答える 4

Related

Reference