ユーザーが焦点を絞った検索を行えるように、メール内の URL をクロールするツールを作成しています。訪問した URL に、私たちがクローラーであることを伝えて、ユーザーがメーリング リストに登録または登録解除されないようにする方法、または URL 内の他のアクションが実行されないようにする方法はありますか?
それ以外の場合、URL が何らかのアクションを実行したい人間だけがアクセスすることを意図していることを一般的に発見するスマートな方法はありますか?
ユーザーが焦点を絞った検索を行えるように、メール内の URL をクロールするツールを作成しています。訪問した URL に、私たちがクローラーであることを伝えて、ユーザーがメーリング リストに登録または登録解除されないようにする方法、または URL 内の他のアクションが実行されないようにする方法はありますか?
それ以外の場合、URL が何らかのアクションを実行したい人間だけがアクセスすることを意図していることを一般的に発見するスマートな方法はありますか?
とにかく役立つ1つの方法は、サイトのルートで利用可能なrobots.txtファイルに従うことです.
サイトの作成者は、クローラーが入ってほしくない領域にクローラーが近づかないように、この設定を行う必要があります。
スチュワート。
一般的に、いいえ。
特定の URL が特に何かを「実行」するかどうかを確実に推測する方法はありません (「登録解除」などのパターンを探すことはできると思いますが、それはほとんど信頼できません)。
また、HTTP 要求を作成するときに設定できる魔法の「私はロボットです」フラグはありません。