Firebugまたは別のデバッガーを使用して、Javascriptで生成されたDOMを検査できます。Firebugを使用すると、生成された要素のinnerHTMLをクリップボードにインタラクティブにコピーして、ディスクに保存することもできます。
これらのインタラクティブなタスクをプログラムで実行できるシステム/ツールはありますか?このようなツール/プラグインは、Javascriptで生成されたDOMを読み取り、プログラムでディスクに保存できる必要があります。
Firebugまたは別のデバッガーを使用して、Javascriptで生成されたDOMを検査できます。Firebugを使用すると、生成された要素のinnerHTMLをクリップボードにインタラクティブにコピーして、ディスクに保存することもできます。
これらのインタラクティブなタスクをプログラムで実行できるシステム/ツールはありますか?このようなツール/プラグインは、Javascriptで生成されたDOMを読み取り、プログラムでディスクに保存できる必要があります。
これを可能にする既存のツールを私は知らないので、おそらくこのタスクを解決するために独自のスクリプトを作成する必要があります。
確かに、Seleniumのようなライブラリを使用してこれを実現できます。これを使用して、Webサイトのレンダリングに使用するブラウザーを選択することもできます。
Linuxで実行している場合は、自分のプロジェクトのWebkit-scrapingを推奨することもできます(もちろん、この推奨は少し偏っています;)。インメモリWebkitインスタンスを使用してページをレンダリングし、その中でJavascriptを実行します。サーバーをでコンパイルした後cd webkit-server && qmake && make
、Pythonで次のようなことを行うことができます。
import os, sys
sys.path.insert(0, '/path/to/webkit-scraping/lib')
import webkit_scraping
URL = 'http://example.org'
OUTFILE = '/tmp/example.html'
if __name__ == '__main__':
# set up a web scraping session
driver = webkit_scraping.webkit_server.Driver()
sess = webkit_scraping.scraping.Session(driver = driver)
sess.visit(URL)
with open(OUTFILE, 'wb') as f:
f.write(sess.body())