robots.txt - robots.txt: user-agent: Googlebot disallow: / Google はまだインデックス登録中です

Question

このサイトの robots.txt を見てください。

内容は次のとおりです。

User-Agent: Googlebot
Disallow: /

これは、サイトをインデックスに登録しないように Google に指示する必要がありますね。

true の場合、サイトが Google 検索に表示されるのはなぜですか?

score 6 · Accepted Answer

Google のインデックスの更新には時間がかかるため、待つ必要があるだけでなく、サイトにリンクしている他のサイトがある場合、robots.txt だけではサイトを削除するのに十分ではないことにも注意してください。

Google のサポートページ「Google の検索結果からページまたはサイトを削除する」を引用:

ページがまだ存在するが、検索結果に表示したくない場合は、robots.txt を使用して Google がそのページをクロールしないようにします。一般に、URL が robots.txt で許可されていない場合でも、別のサイトでその URL が見つかった場合は、そのページをインデックスに登録することがあります。ただし、ページが robots.txtでブロックされていて、そのページに対してアクティブな削除リクエストがある場合、Google はそのページをインデックスに登録しません。

上記のドキュメントには、考えられる代替ソリューションの 1 つも記載されています。

または、 noindex メタタグを使用することもできます。このタグがページに表示されると、他のページがそのページにリンクしていたとしても、Google はそのページを検索結果から完全に除外します。これは、サイトサーバーに直接アクセスできない場合に適したソリューションです。(ページの HTML ソースを編集できる必要があります)。

score 1 · Accepted Answer

これを追加したばかりの場合は、Googlebot がサイトに戻って robots.txt を確認するまで待つ必要があります。サイトはまだデータベースに残っています。

関連性があるとは思えませんが、「エージェント」を「エージェント」に変更することをお勧めします。Google では大文字と小文字が区別されない可能性が高いですが、標準に正確に従うことは問題ありません。

score 1 · Accepted Answer

Google が Robots Exclusion File を尊重していないことを確認できます。このオリジンをオンラインにする前に作成した私のファイルは次のとおりです。

https://git.habd.as/robots.txt

そして、ファイルの完全な内容:

User-agent: *
Disallow:

User-agent: Google
Disallow: /

そしてGoogleはまだそれをインデックスに登録しました。

昨年 3 月にアカウントをキャンセルした後は Google を使用しておらず、Yandex 以外のウェブマスターコンソールにこのサイトを追加したことはありません。

Google が Yandex をスクレイピング
Google はロボット除外基準を尊重していません

私はまだログを grep していませんが、そうするつもりです。私の仮定では、Google スパイダーが不正な動作をしているのを見つけるでしょう。

robots.txt - robots.txt: user-agent: Googlebot disallow: / Google はまだインデックス登録中です

3 に答える 3

Related

Reference