ここでそのページの情報を取得しようとしています
しかし、何が起こるか、1秒があります。ページにロードすると、私のhttpは、ロード後のページではなく、ロードページのすべての情報を取得します..ただし、ページは情報のロードと表示の間にリダイレクトされません.
だから基本的にhttp応答は読み込みのhtmlに付いています。
ここでそのページの情報を取得しようとしています
しかし、何が起こるか、1秒があります。ページにロードすると、私のhttpは、ロード後のページではなく、ロードページのすべての情報を取得します..ただし、ページは情報のロードと表示の間にリダイレクトされません.
だから基本的にhttp応答は読み込みのhtmlに付いています。
サイトは、実際のデータを取得するためにページが読み込まれるときに AJAX リクエストを使用しています。参照する URL に対応する AJAX リクエストは次のとおりです。
http://forecast.io/forecast?q=51.7589,-0.2343,1370905200&サテライト
予測データを含む JSON 応答が得られることがわかります。
スクリーンスクレーパーのプロキシを使用してこれを発見しましたが、Charles や HttpFox などを使用して決定することもできます。重要なのは、サイトをプロキシし、求めている情報に対応する AJAX 要求を判断することです。
ブラウザで Web ページにアクセスすると、html が返されます。HTMLはただのテキストです。ブラウザーはそれを読み取り、現在見ているビューにレンダリングします。これは静的コンテンツです。HTML内に、スクリプトを埋め込むことができます。これをブラウザで実行すると、より多くの HTTP リクエストを送信し、このビューを動的に変更できます。
ブラウザではない(そしてJavaScriptを実行できない)HTTPクライアントでHTTPリクエストを送信しているため、取得できるのはHTTPレスポンスからのバイト、おそらくhtmlだけです。ブラウザにロードされた情報が必要な場合は、どのリクエストがそれを取得し、どのようにそのレスポンスを解析するかを理解する必要があります。