0

特定の URL に特定のコンテンツがあるかどうかを確認するボットを作成しようとしています。ただし、実行すると「HTTP リダイレクト ループ」エラーが発生し続けます。

私が疑うことができる唯一のことは、ページがボットを許可していないことです. ページでボットが許可されていないかどうかを確認する方法はありますか? 私はそれをグーグルで調べましたが、まだ答えを見つけていません。

編集

何かをチェックした後、これは robots.txt の内容です:

User-agent: *
Disallow: /advsched/

また、ブラウザで Cookie を無効にしてページにアクセスすると、「HTTP リダイレクト ループ」エラーが発生することにも気付きました。私が理解していることから、私がアクセスしようとしているページはボットを許可していません。ただし、ユーザーエージェントが次のようなものである限り、cURL関数について私が理解していることから:

Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.2) Gecko/20090729 Firefox/3.5.2 GTB5

サイトは、私がボットかどうかを判断できません。これで残るのは、Cookie だけです。cURL 関数が Cookie を処理できることは知っていますが、標準ユーザーのように見えるようにそれらを処理できますか? 私はまだそれを機能させることができませんでした。

4

2 に答える 2

3

わかりません。

ボットとは?サーバーはどのように知っていますか?通常、識別情報はUser-Agent、リクエスト中にクライアントから送信されたヘッダーにあります。ただし、一部のサーバーが一般的なレベルで「ボット」をブロックする必要はありません。彼らが単に Google をブロックしたいだけだとしますか?

マリオのチェックの提案はrobots.txt良いものです。通常、サイトの所有者は、ボットが何にアクセスできるか、およびスクレイピングされた情報をどう処理するかについて、そこにルールを設定します。ただし、これはリダイレクトとは関係ありません。

于 2012-08-17T02:01:43.703 に答える
0

その内容を確認/robots.txtして解釈します。

手順はhttp://robotstxt.org/にあります。

于 2012-08-17T02:46:02.967 に答える