6

このサイトの robots.txt を見てください。

fr2.dk/robots.txt

内容は次のとおりです。

User-Agent: Googlebot
Disallow: /

これは、サイトをインデックスに登録しないように Google に指示する必要がありますね。

true の場合、サイトが Google 検索に表示されるのはなぜですか?

4

3 に答える 3

6

Google のインデックスの更新には時間がかかるため、待つ必要があるだけでなく、サイトにリンクしている他のサイトがある場合、robots.txt だけではサイトを削除するのに十分ではないことにも注意してください。

Google のサポート ページ「Google の検索結果からページまたはサイトを削除する」を引用:

ページがまだ存在するが、検索結果に表示したくない場合は、robots.txt を使用して Google がそのページをクロールしないようにします。一般に、URL が robots.txt で許可されていない場合でも、別のサイトでその URL が見つかった場合は、そのページをインデックスに登録することがあります。ただし、ページが robots.txtブロックされていて、そのページに対してアクティブな削除リクエストがある場合、Google はそのページをインデックスに登録しません。

上記のドキュメントには、考えられる代替ソリューションの 1 つも記載されています。

または、 noindex メタ タグを使用することもできます。このタグがページに表示されると、他のページがそのページにリンクしていたとしても、Google はそのページを検索結果から完全に除外します。これは、サイト サーバーに直接アクセスできない場合に適したソリューションです。(ページの HTML ソースを編集できる必要があります)。

于 2011-01-22T16:58:11.567 に答える
1

これを追加したばかりの場合は、Googlebot がサイトに戻って robots.txt を確認するまで待つ必要があります。サイトはまだデータベースに残っています。

関連性があるとは思えませんが、「エージェント」を「エージェント」に変更することをお勧めします。Google では大文字と小文字が区別されない可能性が高いですが、標準に正確に従うことは問題ありません。

于 2011-01-22T16:53:36.353 に答える
1

Google が Robots Exclusion File を尊重していないことを確認できます。このオリジンをオンラインにする前に作成した私のファイルは次のとおりです。

https://git.habd.as/robots.txt

そして、ファイルの完全な内容:

User-agent: *
Disallow:

User-agent: Google
Disallow: /

そしてGoogleはまだそれをインデックスに登録しました。

昨年 3 月にアカウントをキャンセルした後は Google を使用しておらず、Yandex 以外のウェブマスター コンソールにこのサイトを追加したことはありません。

  1. Google が Yandex をスクレイピング
  2. Google はロボット除外基準を尊重していません

私はまだログを grep していませんが、そうするつもりです。私の仮定では、Google スパイダーが不正な動作をしているのを見つけるでしょう。

于 2018-10-10T04:13:37.793 に答える