node.jsを使用してHTTPリクエストを作成し、ウェブサーバーからテキストをロードしたいと思います。応答には多くのテキスト(数メガバイト)が含まれる可能性があるため、各テキストチャンクを個別に処理したいと思います。次のコードを使用してこれを実現できます。
var req = http.request(reqOptions, function(res) {
...
res.setEncoding('utf8');
res.on('data', function(textChunk) {
// process utf8 text chunk
});
});
これは問題なく機能するようです。ただし、HTTP圧縮をサポートしたいので、zlibを使用します。
var zip = zlib.createUnzip();
// NO res.setEncoding('utf8') here since we need the raw bytes for zlib
res.on('data', function(chunk) {
// do something like checking the number of bytes downloaded
zip.write(chunk); // give the raw bytes to zlib, s.b.
});
zip.on('data', function(chunk) {
// convert chunk to utf8 text:
var textChunk = chunk.toString('utf8');
// process utf8 text chunk
});
'\u00c4'
これは、次の2バイトで構成されるマルチバイト文字の場合に問題になる可能性が0xC3
あり0x84
ます。最初のバイトが最初のチャンク(Buffer
)で覆われ、2番目のバイトが2番目のチャンクで覆われている場合chunk.toString('utf8')
、テキストチャンクの終わり/始まりで誤った文字が生成されます。どうすればこれを回避できますか?
ヒント:ダウンロードされるバイト数を制限するには、まだバッファー(より具体的にはバッファー内のバイト数)が必要です。したがってres.setEncoding('utf8')
、上記の最初のサンプルコードのように非圧縮データに使用することは、私のニーズには合いません。