robots.txt - robots.txt を使用して HTTrack クローラーを Web サイトから遠ざけるにはどうすればよいですか?

Question

私はウェブサイトhttp://www.totalworkflow.co.ukを維持していますが、HTTrack が robots.txt ファイルの指示に従っているかどうかわかりません。HTTrack を Web サイトから遠ざけることができるという回答がある場合は、実装を提案するか、ロボットの名前を教えてください。そうすれば、このがらくたが Web サイトをクロールするのをブロックできるようになります。これが robots.txt では不可能な場合、このロボットを Web サイトから遠ざける他の方法をお勧めしますか?

おっしゃる通り、スパムクローラーが robots.txt ファイルに記載されているガイドラインに従う必要はありません。robots.txt が正規の検索エンジン専用であることはわかっています。ただし、robots.txt ガイドラインが提供されている場合はそれをスキップしないように開発者がこのアプリケーションをハードコーディングしている場合、アプリケーション HTTrack は本物に見える場合があります。このオプションが提供されている場合、アプリケーションは意図した目的に非常に役立ちます。OK、私の問題に取り掛かりましょう。実際に解決策を見つけたいのは、Web サーバーに何もハードコードせずに HTTack クローラーを遠ざけることです。最初にウェブマスターレベルでこの問題を解決しようとします。ただし、あなたのアイデアは将来的に検討するのに最適です。ありがとうございました

score 1 · Accepted Answer

robots.txt に従う必要がありますが、robots.txt は従う必要のないものです (実際には、スパムボットで他の人に見られたくないものを見つけるのに非常に適しています)。 (今はロボットに従っているとしても) 将来、すべての robots.txt とメタタグを無視するオプションはなくなるのでしょうか? より良い方法は、ユーザーエージェントを検出してブロックするようにサーバー側アプリケーションを構成することだと思います。ユーザーエージェント文字列がクローラーのソースコードのどこかにハードコーディングされている可能性があり、ユーザーはそれを変更してクローラーのブロックを停止することができません。ユーザーエージェント情報を吐き出す (またはサーバーログを確認する) サーバースクリプトを作成し、この情報に従ってブロックルールを作成するだけです。または、既知の "

ユーザーエージェントまたは空のリファラーによるブロック

robots.txt - robots.txt を使用して HTTrack クローラーを Web サイトから遠ざけるにはどうすればよいですか?

1 に答える 1

Related

Reference