node.js - 高速ストリーム読み取りストリームで低速 I/O のバランスを取る

Question

node.js には、再フォーマットしてデータベースに書き込みたい読み取りストリームがあります。読み取りストリームが高速で書き込みが遅いため、書き込みのキューが蓄積されると、node.js キューが圧倒される可能性があります (ストリームが GB のデータであると仮定します)。ブロックせずにこれが起こらないように、コードの書き込み部分を強制的に待機させるにはどうすればよいですか?

var request = http.get({
      host: 'api.geonames.org',
      port: 80,
      path: '/children?' + qs.stringify({
      geonameId: geonameId,
      username: "demo"
   })
}).on('response', function(response) {
   response.setEncoding('utf8');
   var xml = new XmlStream(response, 'utf8');

   xml.on('endElement: geoname ', function(input) {  
      console.log('geoname');
      var output = new Object();
      output.Name = input.name;
      output.lat = input.lat;
      output.lng = input.lng;
      output._key = input.geonameId;
      data.db.document.create(output, data.doc, function(callback){    
         //this is really slow.
      }
      // i do not want to return from here and receive more data until the 'create' above has completed
   });  
});

score 3 · Accepted Answer

昨夜、この問題に遭遇したばかりで、ハッカソンによって引き起こされた睡眠不足の状態で、次のように解決しました。

処理するジョブを送信するたびにカウンターをインクリメントし、操作が完了するとカウンターをデクリメントします。アウトバウンドトラフィックが他のサービスを圧倒しないようにするために、保留中のアウトバウンドリクエストが一定数あるときにストリームを一時停止します。コードは次のようになります。

var instream = fs.createReadStream('./combined.csv');
var outstream = new stream;
var inProcess = 0;
var paused = false;
var rl = readline.createInterface(instream, outstream);
rl.on('line', function(line) {
    inProcess++;
    if(inProcess > 100) {
        console.log('pausing input to clear queue');
        rl.pause();
        paused = true;
    }

    someService.doSomethingSlow(line, function() {
        inProcess--;
        if(paused && inProcess < 10) {
            console.log('resuming stream');
            paused = false;
            rl.resume();
        }

        if (err) throw err;
    });
});

rl.on('end', function() {
    rl.close();
});

最も洗練されたソリューションではありませんが、機能し、メモリ不足や他のサービスのスロットリングなしで、100 万行以上を処理できました。

score 0 · Accepted Answer

私のソリューションは単に空stream.Writableを拡張し、基本的に@Timothyのものと同じですが、イベントを使用し、Streams1.pause()に依存していません.resume()(とにかく、データパイプラインに影響を与えていないようです)。

var stream = require("stream");

var liveRequests = 0;
var maxLiveRequests = 100;
var streamPaused = false;

var requestClient = new stream.Writable();

function requestCompleted(){
    liveRequests--;
    if(streamPaused && liveRequests < maxLiveRequests){
        streamPaused = false;
        requestClient.emit("resumeStream");
    }
}

requestClient._write = function (data, enc, next){
    makeRequest(data, requestCompleted);
    liveRequests++;

    if(liveRequests >= maxLiveRequests){
        streamPaused = true;
        requestClient.once("resumeStream", function resume(){
            next();
        });
    }
    else {
        next();
    }
};

カウンタliveRequestsは同時要求の数を追跡し、 makeRequest()が呼び出されるたびに増分され、完了すると (つまり、が呼び出されるとrequestCompleted()) 減分されます。リクエストが作成されたばかりでをliveRequests超えmaxLiveRequestsた場合、でストリームを一時停止しますstreamPaused。リクエストが完了すると、ストリームは一時停止され、liveRequests現在は未満でありmaxLiveRequests、ストリームを再開できます。後続のデータ項目は_write()そのコールバックが呼び出されたときに読み取られるため、一時停止/再開を模倣するnext()カスタムイベントのイベントリスナーを使用して後者を単純に延期できます。"resumeStream"さて、単にreadStream.pipe(requestClient).

編集：入力データの自動バッチ処理とともに、このソリューションをパッケージに抽象化しました。

node.js - 高速ストリーム読み取りストリームで低速 I/O のバランスを取る

2 に答える 2

Related

Reference