curlを使用して取得した情報を解析しようとしているWebページがいくつかあります。各ページはJQueryを使用して、ドキュメントがブラウザに読み込まれるときにコンテンツを変換します(document.ready関数を使用)。ほとんどの場合、divのクラス/IDを設定します。Javascript関数がロードされると、情報の解析がはるかに簡単になります。
(できればコマンドラインから)ページのJavascriptコンテンツを実行し、変換されたHTMLをダンプするための私のオプションは何ですか?
curlを使用して取得した情報を解析しようとしているWebページがいくつかあります。各ページはJQueryを使用して、ドキュメントがブラウザに読み込まれるときにコンテンツを変換します(document.ready関数を使用)。ほとんどの場合、divのクラス/IDを設定します。Javascript関数がロードされると、情報の解析がはるかに簡単になります。
(できればコマンドラインから)ページのJavascriptコンテンツを実行し、変換されたHTMLをダンプするための私のオプションは何ですか?
動的 Web をスクレイピングするには、curl などの静的ダウンロード ツールを使用しないでください。
動的な Web をスクレイピングしたい場合は、プログラミング言語から制御できるヘッドレス Web ブラウザーを使用してください。このための最も一般的なツールは Selenium です
http://code.google.com/p/selenium/
Selenium を使用すると、変更された DOM ツリーをブラウザーから HTML としてエクスポートできます。
ユースケースの例: