phantomjs - Phantomjs はスクレイピングされたデータをデータベースに書き込みます

Question

Hoover をスクラップするために、phantomjs スクリプトを作成しました。以下は私の流れです：

1:Nodejs API を使用してデータベースからデータを取得します。

2:一度に 10 行をフェッチし、これらの行を 1 つずつ Web サイトに渡し、それを破棄します (問題はここにあります。どういうわけか、Scrapped からの結果を配列または何かに格納し、このデータをノード API に戻して、 Azure でデータベースを更新します)。

現在、nodejs API を使用して azure からデータを取得することができ、phantomjs を使用して廃棄することもできます。私の唯一の問題は、結果を一時ストレージまたは配列に格納する方法です。これを nodejs API に渡して、azure でデータベースを更新することができます。

score 4 · Accepted Answer

(私は CasperJS を使用しています - PhantomJS にレイヤーを追加しますが、PhantomJS でも動作する可能性があると思います)

保存したいデータを使用して、CasperJS にバックエンドへの AJAX 呼び出しを実行させることができます。

CasperJS がアクセスする各ページにコンテンツスクリプトを含めるようにします。

var casper = require('casper').create({ clientScripts: ['content.js'] });

次に、content.js で次のようにします。

function sendToServer(theData){
  var xhr2 = new XMLHttpRequest();
  xhr2.open('POST', your_server_url, true);
  xhr2.send(theData);
}

sendToServerこれでcasper.evaluate、スクリプトから呼び出すことができます。

そして、これを受信アプリに含めることを忘れないでください (または、このモジュールを参照してください)。

res.writeHead(200, {
  'Access-Control-Allow-Origin': '*'
});

そうしないと、ajax が失敗します。CORS ヘッダーも返す OPTIONS ルートを追加する必要がある可能性があります。これに対する別の解決策は、コマンドラインスイッチを使用して PhantomJS のクロスオリジンチェックを無効にすることです。

1 に答える 1