1

URLのリストがあり、他の場所にリダイレクトされるかどうか、リダイレクトされる場合は最終的な場所を確認したいと思います。これは、これらのURLにHEADリクエストを送信することで実行しています。

このリストには、 robots.txtでボット(一般的にはすべてのボット)を許可しない特定のホストへのリンクが含まれています。

私の質問は、礼儀正しくするために-

  1. HEADリクエストについてもrobots.txtをフォローし、これらのホストのリクエストを停止する必要がありますか?

  2. robots.txtにクロールの遅延が記載されている場合、これらのHEADリクエストに対してそれに従う必要がありますか?

  3. この仕事をして、入力URLのバッチの最終的なURLを返すことができるWebサービスはありますか?
4

1 に答える 1

0

HEAD リクエストであっても、常にrobots.txt に従う必要があります。そうしないと、Web サイトの礼儀正しさの設定に違反するだけでなく、IP が Web サイトから永久にブロックされる危険があります。ウェブサイト上の制限された人間がアクセスできないディレクトリ/ページへの単純な HEAD リクエストは、オペレーターの禁止リストにあなたを載せることができます.

  1. HEAD リクエストについても robots.txt に従い、これらのホストのリクエストを停止する必要がありますか?

robots.txt に従うか、すでに禁止されている場合は、それらのホストのリクエストを停止する必要があります。

  1. robots.txt に記載されているクロールの遅延がある場合、これらの HEAD リクエストに対してそれに従う必要がありますか?

はい。

  1. 私のためにこの仕事をして、入力 URL のバッチの最終的な URL を返すことができる Web サービスはありますか?

私は何も知りませんが、おそらく既存のクローラーを採用してそれを行うことができます. どのプログラミング言語が好きですか?

于 2013-02-01T22:10:12.240 に答える