私はウェブサイトhttp://www.totalworkflow.co.ukを維持していますが、HTTrack が robots.txt ファイルの指示に従っているかどうかわかりません。HTTrack を Web サイトから遠ざけることができるという回答がある場合は、実装を提案するか、ロボットの名前を教えてください。そうすれば、このがらくたが Web サイトをクロールするのをブロックできるようになります。これが robots.txt では不可能な場合、このロボットを Web サイトから遠ざける他の方法をお勧めしますか?
おっしゃる通り、スパム クローラーが robots.txt ファイルに記載されているガイドラインに従う必要はありません。robots.txt が正規の検索エンジン専用であることはわかっています。ただし、robots.txt ガイドラインが提供されている場合はそれをスキップしないように開発者がこのアプリケーションをハードコーディングしている場合、アプリケーション HTTrack は本物に見える場合があります。このオプションが提供されている場合、アプリケーションは意図した目的に非常に役立ちます。OK、私の問題に取り掛かりましょう。実際に解決策を見つけたいのは、Web サーバーに何もハードコードせずに HTTack クローラーを遠ざけることです。最初にウェブマスター レベルでこの問題を解決しようとします。ただし、あなたのアイデアは将来的に検討するのに最適です。ありがとうございました