PHPでCURL経由でいくつかのWebページをクロールしようとしています。
私が経験しているのは、Web ブラウザーと php スクリプトを介してページを表示したときの結果が異なることです。
おそらく、PHPスクリプトを介して表示されたときにページをリダイレクトする機能を実装したのでしょう。
任意の助けをいただければ幸いです。
前もって感謝します。
PHPでCURL経由でいくつかのWebページをクロールしようとしています。
私が経験しているのは、Web ブラウザーと php スクリプトを介してページを表示したときの結果が異なることです。
おそらく、PHPスクリプトを介して表示されたときにページをリダイレクトする機能を実装したのでしょう。
任意の助けをいただければ幸いです。
前もって感謝します。
これが実際に起こっていることを想像するのは不合理ではありません。サイトの所有者は、ページのスクレイピングを思いとどまらせたいと思うかもしれません。この理論をテストするには、次のようにcURLを介してユーザーエージェントを渡します(これはiPhone用のUserAgentです)。
curl -A "Mozilla/5.0 (iPhone; U; CPU iPhone OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5" http://www.apple.com
ロードしたページに ajax コンテンツが含まれていて、動的にロードされている可能性があるため、異なる結果が得られる可能性があります。cURL は静的な html しかロードできません。それだけです。初期ロード以降のものはすべて失われます。Web スクレイプのようなブラウザが必要な場合は、PhantomJSを検討してください