私の会社は、よくある質問と顧客からの質問をすべてホストする Web サイトを使用しています。古いデータをすべて消去して新しいデータを入力する計画があり、サービスには、もう表示したくない質問のバックアップまたはアーカイブ オプションがありません。
perl と mechanize を使用してサイトをスケープしようとしましたが、顧客のコメントが ajax を介して読み込まれるため、ページにコメントがありません。私はphantomjsを見て、サンプルページを使用してページを画像に保存できますが、ページの完全なページhtmlダンプを取得したいのですが、方法がわかりません. このサンプルコードを当サイトで使用しました
var page = new WebPage();
page.open('http://espn.go.com/nfl/', function (status) {
//once page loaded, include jQuery from cdn
page.includeJs("http://ajax.googleapis.com/ajax/libs/jquery/1.6.1/jquery.min.js", function() {
//once jQuery loaded, run some code
//inserts our custom text into the page
page.evaluate(function(){$("h2").html('Many NFL Players Scared that Chad Moon Will Enter League');});
//take screenshot and exit
page.render('espn.png');
phantom.exit();
});
});
クロムでソースを表示した場合と同様に、phantomjs を使用してデータの完全なページ ダンプを取得する方法はありますか? perl + mechanize でこれを行うことができますが、phantomjs を使用してこれを行う方法がわかりません。