Digikey は Web サイトを変更し、onload via post と呼ばれる JavaScript を導入しました。これにより、以前の単純な Java HTML コード リトリーバーが強制終了されました。HTML/テキストを保存する前に、PhantomJS を使用して JavaScript の実行を許可しようとしています。
var page = new WebPage(),
t, address;
var fs = require('fs');
if (phantom.args.length === 0) {
console.log('Usage: save.js <some URL>');
phantom.exit();
} else {
address = encodeURI(phantom.args[0]);
page.open(address, function (status) {
if (status !== 'success') {
console.log('FAIL to load the address');
} else {
f = null;
var markup = page.content;
console.log(markup);
try {
f = fs.open('htmlcode.txt', "w");
f.write(markup);
f.close();
} catch (e) {
console.log(e);
}
}
phantom.exit();
});
}
このコードはほとんどの Web ページで機能しますが、次の場合に失敗します。
http://search.digikey.com/scripts/dksearch/dksus.dll?keywords=S7072-ND
これは私のテストケースです。URL を開くことができず、PhantomJS がクラッシュします。win32 静的ビルド 1.3 を使用。
任意のヒント?
基本的に私が求めているのは、ファイルを保存する前にページのレンダリングとドキュメントを変更するスクリプトを競合する wget です。