search-engine - robots.txt なしでロボットをブロックする方法

Question

ご存知のように、robots.txt は、Web クローラー/ロボットによる特定の Web ページ/セクションのインデックス作成を回避するのに役立ちます。ただし、この方法にはいくつかの欠点があります。1. Web クローラーが robots.txt ファイルをリッスンしない可能性があります。2. 保護したいフォルダを全員に公開しています。

クローラーから保護したいフォルダーをブロックする別の方法はありますか? これらのフォルダーは、ブラウザー (/admin など) からアクセスできるようにする必要があることに注意してください。

score 2 · Accepted Answer

リクエストのヘッダーを確認し、User-Agentヘッダーにロボットの名前が含まれている場合は 403 を発行します。これにより、誠実なロボットはすべてブロックされますが、不正なロボットはブロックされません。しかし、ロボットが本当に正直であれば、ロボットは従うでしょうrobots.txt。

search-engine - robots.txt なしでロボットをブロックする方法

1 に答える 1

Related

Reference