javascript - node.js での多数の並列 http リクエスト

Question

ネットワークをスキャンして利用可能なHTTPページを探すnode.jsスクリプトを作成したので、並行して実行したい接続がたくさんありますが、一部のリクエストは前の完了を待っているようです。

以下はコードフラグメントです。

    var reply = { };
    reply.started = new Date().getTime();
    var req = http.request(options, function(res) {
        reply.status = res.statusCode;
        reply.rawHeaders = res.headers;
        reply.headers = JSON.stringify(res.headers);
        reply.body = '';
        res.setEncoding('utf8');
        res.on('data', function (chunk) {
            reply.body += chunk;
        });
        res.on('end', function () {
            reply.finished = new Date().getTime();
            reply.time = reply.finished - reply.started;
            callback(reply);
        });
    });
    req.on('error', function(e) {
        if(e.message == 'socket hang up') {
            return;
        }
        errCallback(e.message);
    });
    req.end();

このコードは 1 秒あたり 10 ～ 20 のリクエストしか実行しませんが、500 ～ 1,000 のリクエストのパフォーマンスが必要です。キューに入れられたすべての要求は、異なる HTTP サーバーに対して行われます。

私はそのようなことをしようとしましたが、助けにはなりませんでした:

    http.globalAgent.maxSockets = 500;

score 9 · Accepted Answer

コードで何か他のことが起こっているに違いありません。ノードは、1 秒あたり 1,000 件以上のリクエストを快適に処理できます。

次の簡単なコードでテストしました。

var http = require('http');

var results = [];
var j=0;

// Make 1000 parallel requests:
for (i=0;i<1000;i++) {
    http.request({
        host:'127.0.0.1',
        path:'/'
    },function(res){
        results.push(res.statusCode);
        j++;

        if (j==i) { // last request
            console.log(JSON.stringify(results));
        }
    }).end();
}

自宅のブロードバンド接続ではなく、どのノードが機能するかを純粋にテストするために、コードはローカルの Nginx サーバーに要求します。また、console.log は同期関数として実装されているため (プログラムがクラッシュしたときにデバッグメッセージが失われないようにするため)、すべての要求が返されるまでは使用しません。

を使用してコードを実行するtimeと、次の結果が得られます。

real    0m1.093s
user    0m0.595s
sys     0m0.154s

これは、1000 リクエストに対して 1.093 秒であり、1 秒あたり 1,000 リクエストに非常に近くなります。

上記の単純なコードは、多くのリクエスト (10000 以上など) を行おうとすると OS エラーを生成します。これは、ノードが for ループですべてのソケットを開こうとするためです (覚えておいてください: リクエストは for ループまで開始されません)。作成されるだけです)。あなたのソリューションでも同じエラーが発生すると述べました。これを回避するには、作成する並列リクエストの数を制限する必要があります。

並列リクエストの数を制限する最も簡単な方法は、 async.jsライブラリのLimit関数の 1 つを使用することです。

var http = require('http');
var async = require('async');

var requests = [];

// Build a large list of requests:
for (i=0;i<10000;i++) {
    requests.push(function(callback){
        http.request({
            host:'127.0.0.1',
            path:'/'
        },function(res){
            callback(null,res.statusCode);
        }).end()
    });
}

// Make the requests, 100 at a time
async.parallelLimit(requests, 100,function(err, results){
    console.log(JSON.stringify(results));
});

time私のマシンでこれを実行すると、次のようになります。

real    0m8.882s
user    0m4.036s
sys     0m1.569s

つまり、約 9 秒または約 1.1k/s で 10k のリクエストです。

async.jsから利用できる関数を見てください。

score 4 · Accepted Answer

私は解決策を見つけました。それはあまり良くありませんが、機能します：

childProcess = require('child_process')

私はカールを使用しています：

childProcess.exec('curl --max-time 20 --connect-timeout 10 -iSs "' + options.url + '"', function (error, stdout, stderr) { }

これにより、800 ～ 1000 の curl プロセスを同時に実行できます。もちろん、このソリューションには、多くのオープンファイル記述子の要件のようなウィークネスがありますが、機能します。

node-curl バインディングを試してみましたが、それも非常に遅かったです。

javascript - node.js での多数の並列 http リクエスト

2 に答える 2

Related

Reference