web-crawler - 検索エンジンからサイトをブロックする - DuckDuckGo

Question

私は開発サイトhttps://text-domain.comを持っています。(実際のサイトではありません) https://duckduckgo.comにアクセスして text-domain.com を検索すると、結果が返されます。

これまでに何を試しましたか：

次のコードでファイルを作成robots.txtしました（ルートディレクトリ、つまりtext-domain.com/robots.txtに入れます）：

User-agent: *
Disallow: /

次に、テンプレートファイルに次のようなメタタグを追加しました。

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

これを行った後でも、DuckDuckGo で検索したところ、同じ結果が得られました。どんな提案でも大歓迎です。

PS

こんにちは、数日待った後、2 つの結果が得られました。

それでも、検索結果は取得されます。
しかし、その結果について次のようなメッセージが表示されます。「ここに説明を表示したいのですが、サイトでは許可されません。

結果に表示されないように完全にブロックすることはできますか?

score 14 · Accepted Answer

DuckDuckGo は、結果に含めることに関しては奇妙なアヒルです。私はこのトピックについて多くの検索エンジンでかなりの調査を行い、DDG との間で電子メールをやり取りしました。

これが取引です。ここにリストされているように、他の検索エンジンからコンテンツを取得します。私の知る限り、彼らの検索結果はどの検索エンジンがそのソースであったかを示していないため、コンテンツを削除するには、基本的にすべてのソースに上流に行き、そこからコンテンツを削除する必要があります. それが面倒に聞こえる場合でも、心配しないでください。とにかくやりたいと思うでしょう。

DDG には、適切に DuckDuckBotと呼ばれる独自のクローラーもあります。HTMLタグもHTTPヘッダーも尊重しませんが（を尊重します）、 DuckDuckBot によって新しい結果が作成されないため、問題ではないようです。私の知る限り、これはどこにも文書化されていませんが、私は彼らのスタッフと話しました。noindexrobots.txt

DDG によると (2014-06-06):

私たちは複数の情報源から結果を取得しており、私たち自身のクローラーがあなたの [問題] の原因ではないでしょう。当社のクローラーは、パークされたドメインやスパムサイトなどを検索する (実際にはクロールしない) など、非常に具体的なタスクのみを実行します。

[あなたのウェブサイト] からの結果が DuckDuckGo に表示されるべきでなく、表示されている場合、それらはアップストリームソースの 1 つから流れている可能性があります。そこで削除すると、検索結果に表示されなくなります。

私は答えます：

noindexでは、実際にHTML や HTTP タグをサポートしていないクローラーを介して、何もインデックスに追加されませんか?

彼らは確認します：

うん！混乱させて申し訳ありません。通常とは異なる点がありましたら、お気軽にお知らせください。

したがって、残っている唯一の問題は、アップストリームプロバイダーからコンテンツを削除する方法です。それについては、プロバイダーによって異なるため、私のブログを参照してください。その核心は次のとおりです。

noindexHTML メタタグとx-robotsHTTP タグ (画像など) を使用して、検索エンジンに結果に何かを含めないように指示します。
すべての検索エンジンが見つけられるように、 sitemap.xmlファイルに Web サイト全体をリストします。
タグをサポートしてrobots.txtいない検索エンジンをブロックするために使用します。noindexx-robots

そしてボーナスポイントについて：

sitemaps.xmlファイルが設定されているように設定しますnoindex(したがって、検索結果に表示されません)。
ファイルについても同様に行いますrobots.txt。

複雑な世界です。

web-crawler - 検索エンジンからサイトをブロックする - DuckDuckGo

2 に答える 2

Related

Reference