3

私の robots.txt ファイルには、次の行があります

ユーザー エージェント: Googlebot-Mobile Disallow: /

User-agent:GoogleBot Disallow: /

サイトマップ: http://mydomain.com/sitemapindex.xml

最初の 4 行を配置すると、Googlebot はサイトをインデックスに登録しないことはわかっていますが、最後の行Sitemap: http://mydomain.com/sitemapindex.xmlを配置すると、Googlebot はサイトをインデックスに登録できますか?

ありがとう、

4

3 に答える 3

4

あなたの robots.txt を自分のドメイン (すべてのページにサイトマップ エントリがあります) に対してテストしたところ、Googlebot と Googlebot-Mobile はアクセスが許可されていないことを返しました。

これに基づいて、robots.txt ファイルはどのサイトマップよりも優先されます。

さらに、論理的に言えば、ドメイン全体をブロックすると、ボットはサイトマップへのアクセスを拒否されます. サイトマップ エントリは、サイトマップの場所をクローラーに伝えるだけであり、サイトマップへのアクセスを許可するわけではありません。

サイトマップを許可したとしても、ボットがサイトをクロールすることはないと思います。サイトマップは、ボットが何をクロールできるかではなく、サイトをクロールする頻度をボットに伝えるように設計されています。

于 2009-04-08T03:29:04.807 に答える
2

いいえ、Google がそうするとは思いません。それは実際には良いボットと悪いボットの問題です。robots.txt ファイルを追加して一部のエリアを制限しても、ボットは引き続きクロールできます。実際には、はいまたはいいえの問題です。robots.txt は警告板のようなものであり、セキュリティ ウォールではありません。

于 2009-04-08T03:21:37.477 に答える
1

googlebot は、sitemapindex.xml にアクセスすることさえできなくなります。

  • robots.txt はクローラー ディレクティブです。
  • sitemap.xml は googlebot クローラーを介して取得されます。
  • googlebot は sitemapindex.xml にアクセスしません
  • クロール対象外、インデックス作成なし、SERP リストなし

これは、Google ウェブマスター ツールの robots.txt 検証ツールと fetch as googlebot (ラボ セクション) 機能でテストできます。

于 2010-10-06T07:27:23.083 に答える