DuckDuckGo は、結果に含めることに関しては奇妙なアヒルです。私はこのトピックについて多くの検索エンジンでかなりの調査を行い、DDG との間で電子メールをやり取りしました。
これが取引です。ここにリストされているように、他の検索エンジンからコンテンツを取得します。私の知る限り、彼らの検索結果はどの検索エンジンがそのソースであったかを示していないため、コンテンツを削除するには、基本的にすべてのソースに上流に行き、そこからコンテンツを削除する必要があります. それが面倒に聞こえる場合でも、心配しないでください。とにかくやりたいと思うでしょう。
DDG には、適切に DuckDuckBotと呼ばれる独自のクローラーもあります。HTMLタグもHTTPヘッダーも尊重しませんが( を尊重します)、 DuckDuckBot によって新しい結果が作成されないため、問題ではないようです。私の知る限り、これはどこにも文書化されていませんが、私は彼らのスタッフと話しました。noindex
robots.txt
DDG によると (2014-06-06):
私たちは複数の情報源から結果を取得しており、私たち自身のクローラーがあなたの [問題] の原因ではないでしょう。当社のクローラーは、パークされたドメインやスパム サイトなどを検索する (実際にはクロールしない) など、非常に具体的なタスクのみを実行します。
[あなたのウェブサイト] からの結果が DuckDuckGo に表示されるべきでなく、表示されている場合、それらはアップストリーム ソースの 1 つから流れている可能性があります。そこで削除すると、検索結果に表示されなくなります。
私は答えます:
noindex
では、実際にHTML や HTTP タグをサポートしていないクローラーを介して、何もインデックスに追加されませんか?
彼らは確認します:
うん!混乱させて申し訳ありません。通常とは異なる点がありましたら、お気軽にお知らせください。
したがって、残っている唯一の問題は、アップストリーム プロバイダーからコンテンツを削除する方法です。それについては、プロバイダーによって異なるため、私のブログを参照してください。その核心は次のとおりです。
noindex
HTML メタ タグとx-robots
HTTP タグ (画像など) を使用して、検索エンジンに結果に何かを含めないように指示します。
- すべての検索エンジンが見つけられるように、 sitemap.xmlファイルに Web サイト全体をリストします。
- タグをサポートして
robots.txt
いない検索エンジンをブロックするために使用します。noindex
x-robots
そしてボーナスポイントについて:
sitemaps.xml
ファイルが設定されているように設定しますnoindex
(したがって、検索結果に表示されません)。
- ファイルについても同様に行います
robots.txt
。
複雑な世界です。