WordPress を実行しているクライアントは、Web サイトで次の機能の開発を要求しました。
WordPress メディア アップローダーを介してアップロードされた特定のファイル (通常は PDF) を検索結果に含めたり除外したりしたいと考えています。
これは robots.txt ファイルを使用して何らかの方法で実行できると思いますが、どこから始めればよいかわかりません。
アドバイス/アイデアはありますか?
WordPress を実行しているクライアントは、Web サイトで次の機能の開発を要求しました。
WordPress メディア アップローダーを介してアップロードされた特定のファイル (通常は PDF) を検索結果に含めたり除外したりしたいと考えています。
これは robots.txt ファイルを使用して何らかの方法で実行できると思いますが、どこから始めればよいかわかりません。
アドバイス/アイデアはありますか?
WordPress の範囲内でこれを行う方法はよくわかりませんが、特定のファイル タイプを除外する場合は、X-Robots-Tag HTTP ヘッダーを使用することをお勧めします。これは、通常は robots タグを使用する PDF や非 HTML ベースのファイル タイプに特に適しています。
すべての特定の FileType 要求のヘッダーを追加してから、NOINDEX の値を設定できます。これにより、PDF が検索結果に含まれなくなります。
URL がファイル タイプまたはファイル タイプに固有のもので終わる場合は、robots.txt ファイルを使用できます。例: Disallow: /*.pdf$
... しかし、URL の場合は必ずしもそうとは限りません。
https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag
これは、Google Webmaster Developers サイトからのものですhttps://developers.google.com/webmasters/control-crawl-index/docs/faq
robots.txt ファイルの変更が検索結果に反映されるまで、どのくらいの時間がかかりますか?
まず、robots.txt ファイルのキャッシュを更新する必要があります (通常、コンテンツは最大 1 日間キャッシュされます)。変更が見つかった後でも、クロールとインデックス作成は複雑なプロセスであり、個々の URL に対してかなりの時間がかかる場合があるため、正確なタイムラインを示すことは不可能です. また、robots.txt ファイルで URL へのアクセスが許可されていない場合でも、Google がクロールできないにもかかわらず、その URL が検索結果に表示されたままになる可能性があることに注意してください。Google からブロックしたページを早急に削除したい場合は、Google ウェブマスター ツールから削除リクエストを送信してください。
Google の robots.txt の仕様は次のとおりですhttps://developers.google.com/webmasters/control-crawl-index/docs/robots_txt
ファイルの構文が正しい場合、最良の答えは、Google が新しいロボット ファイルを更新するまで待つことです。