1000 個の小さなファイル (1 ~ 2 MB) について、HDFS とローカル ファイル システムのパフォーマンスを比較したいと考えています。シーケンス ファイルを使用しない場合、HDFS はローカル ファイル システムと比較して、1000 個のファイルを読み取るのにほぼ 2 倍の時間を要します。ここでシーケンス ファイルについて聞きました - HDFS の小さなファイルの問題 これらのレコードを取得するための HDFS の応答時間が、ローカル FS よりも優れていることを示したいと思います。シーケンス ファイルは役に立ちますか、それとも別のものを探すべきですか? (おそらくHBase)
編集: Java プログラムを使用して、ここのようなファイルを読み取りますHDFS Read through Java