hadoop - HDFS ファイルから SequenceFile へのバイナリデータの書き込み

Question

HDFS に大量のファイルがあり、それらを MR ジョブでシーケンスファイルにコピーしたいと考えています。seq ファイルのキータイプは TEXT (SHA1 を使用) で、値のタイプは BytesWritable (ファイルコンテンツ) です。いくつかのサンプルコードでは、すべてのファイルコンテンツをバイト配列 (たとえばバッファー) に読み取り、バッファーを ByteWritable オブジェクトに設定しています。元：

byte[] buffer = new byte[(int)file.length()];
FileInputStream fis = new FileInputStream(fileEntry);
int length = fis.read(buffer);
fis.close();
key.set(sha1);
value.set(buffer, 0, buffer.length);
writer.append(key, value);

私の質問は次のとおりです。入力ファイルが非常に大きい場合、バッファサイズがメモリ制限を超えてしまう可能性があります。各反復で少量のデータを書き込むループを ByteWritable オブジェクトに追加できますか? または、入力ストリームを BytesWritable オブジェクトに割り当てて、問題を処理させることはできますか?

ありがとう。

score -1 · Accepted Answer

catLinuxコマンドに相当する HDFS を使用できます。

hadoop fs -cat '/path/to/files/*.' > oneBigSequenceFile.csv

1 つのシーケンスファイル内のすべてのファイルを連結します。

hadoop - HDFS ファイルから SequenceFile へのバイナリ データの書き込み

1 に答える 1

Related

Reference

hadoop - HDFS ファイルから SequenceFile へのバイナリデータの書き込み