1

PhantomJS によってデータをスクレイピングした関数にリンク パラメータを使用する一連のリンクがあります。この関数をシリアル化する方法は? これはステートメント用で、一度に 3 つの機能を並行して実行し、イベントエラーを受け取ります。

この場合、asyncを使用するのが適切ですが、シリーズでどのように使用しますか? 関数の実行時間は常に異なりますが、非同期はそれが完了したことをどのように理解し、新しい URL で開始する必要がありますか?

var phantom = require('phantom')
  , async = require('async');

var urls = [
  'http://en.wikipedia.org/wiki/Main_Page',
  'http://es.wikipedia.org/wiki/Wikipedia:Portada',
  'http://de.wikipedia.org/wiki/Wikipedia:Hauptseite'
];

async.mapSeries(urls, getTitle, function(err, result){
    console.log(result);
})

function getTitle (link, callback) {
  phantom.create(function(ph) {
    return ph.createPage(function(page) {
      return page.open(link, function(status) {
        return page.evaluate((function() {
          return document.title;
        }), function(result) {
          callback(null, result);
          return ph.exit();
        });
      });
    });
  });
};
4

1 に答える 1

2

私は次のようなものを試してみます:

var links = []
var _ph

function init(cb) {
    phantom.create(function(ph) {
        //for each link in links call doStuff()
        _ph = ph 
        doStuff(ph, link, cb)   
    })   
}

function doStuff(ph, link, cb) {
    ph.createPage(function(page) { //does things in parallel?
      page.open(link, function(status) {
        page.evaluate((function() {
          document.title;
        }), function(result) {
          cb(null, result);
          page.close();
        });
    });
}

var counter = links.length
var titles;

function results(err, res) {
  titles.push(res)

  if(--counter == 0) {
    //done
    _ph.exit()
  }
 }

init(results)

おそらく動作するコードではありませんが (ここに書きました)、理解していただければ幸いです。1 ページのみを使用する場合は、次のようになります。

var links = []
var _ph
var _page

function init(cb) {
    phantom.create(function(ph) {

        _ph = ph 
        ph.createPage(function(page) {
             _page = page
             doStuff(link, cb)
        }   
    })   
}

function doStuff(page, link, cb) {
      page.open(link, function(status) {
        page.evaluate((function() {
          document.title;
        }), function(result) {
          cb(null, result);
          page.close();
        });
    });
}

 var counter = links.length
var titles;

function results(err, res) {
  titles.push(res)

  if(--counter == 0) {
    //done
    _ph.exit()
    return
  }

  doStuff(links[counter], results)
 }

init(results)
于 2013-08-25T00:17:09.997 に答える