WordPress ブログからページを自動的にダウンロードするボットを作成しています。ボットはほとんどのページを問題なく取得します。たとえば、特定のタグの記事リストの最初のページを簡単に取得できます: http://example.com/myblog/index.php/archives/tag/mytag。ただし、何らかの理由で、http://example.com/myblog/index.php/archives/tag/mytag/page/2のような後続のページを取得できません。
私は何が起こっているのかを理解しようとしましたが、ここに私が見つけたものがあります: サーバーはほとんどの要求に正常に応答しますが、そのような要求に対しては 301 パーマネント リダイレクトで応答します。奇妙なことに、Location ヘッダーはリクエストとまったく同じ URL に設定されています。基本的に、サーバーはページhttp://example.com/myblog/index.php/archives/tag/mytag/page/2のリクエストを...まったく同じページにリダイレクトするように指示します:P
ブラウザからページにアクセスしようとすると、問題なくページが表示されます。ボットが送信しないヘッダー (Cookie を含む) をブラウザーが送信するのではないかと考えたので、ブラウザーの Web コンソールからヘッダー (Cookie を含む) をコピーしましたが、動作は変わりませんでした。
この奇妙な動作を引き起こしている可能性のあるもの、何が起こっているのかをよりよく理解するためにできること、そしてもちろん、それらのページを自動的に取得するために何ができるかについての提案をいただければ幸いです。
ありがとう!