1

私はウェブサイトhttp://www.totalworkflow.co.ukを維持していますが、HTTrack が robots.txt ファイルの指示に従っているかどうかわかりません。HTTrack を Web サイトから遠ざけることができるという回答がある場合は、実装を提案するか、ロボットの名前を教えてください。そうすれば、このがらくたが Web サイトをクロールするのをブロックできるようになります。これが robots.txt では不可能な場合、このロボットを Web サイトから遠ざける他の方法をお勧めしますか?


おっしゃる通り、スパム クローラーが robots.txt ファイルに記載されているガイドラインに従う必要はありません。robots.txt が正規の検索エンジン専用であることはわかっています。ただし、robots.txt ガイドラインが提供されている場合はそれをスキップしないように開発者がこのアプリケーションをハードコーディングしている場合、アプリケーション HTTrack は本物に見える場合があります。このオプションが提供されている場合、アプリケーションは意図した目的に非常に役立ちます。OK、私の問題に取り掛かりましょう。実際に解決策を見つけたいのは、Web サーバーに何もハードコードせずに HTTack クローラーを遠ざけることです。最初にウェブマスター レベルでこの問題を解決しようとします。ただし、あなたのアイデアは将来的に検討するのに最適です。ありがとうございました

4

1 に答える 1

1

robots.txt に従う必要がありますが、robots.txt は従う必要のないものです (実際には、スパム ボットで他の人に見られたくないものを見つけるのに非常に適しています)。 (今はロボットに従っているとしても) 将来、すべての robots.txt とメタタグを無視するオプションはなくなるのでしょうか? より良い方法は、ユーザー エージェントを検出してブロックするようにサーバー側アプリケーションを構成することだと思います。ユーザー エージェント文字列がクローラーのソース コードのどこかにハードコーディングされている可能性があり、ユーザーはそれを変更してクローラーのブロックを停止することができません。ユーザー エージェント情報を吐き出す (またはサーバー ログを確認する) サーバー スクリプトを作成し、この情報に従ってブロック ルールを作成するだけです。または、既知の "

ユーザーエージェントまたは空のリファラーによるブロック

于 2012-11-08T07:53:48.877 に答える