1

Hadoop Map/Reduce を使用して、LZO 以外のものを使用して圧縮された区切りxzプロトコル バッファ ファイルを処理したいと考えていますgzip。Twitter のエレファント バード ライブラリは、主に LZO 圧縮された protobuf ファイルの読み取りをサポートしているようで、私のニーズを満たしていないようです。これを行うための既存のライブラリまたは標準的なアプローチはありますか?

注:圧縮アルゴリズムの選択からわかるように、解決策がprotobufファイルを分割可能にする必要はありません。あなたの答えは特定の圧縮アルゴリズムを指定する必要さえありませんが、少なくとも1つを許可する必要があります私が言及したもの。)

4

1 に答える 1

1

大きなgzipファイルの複数のマップタスクを処理するために、HadoopのRAgzipパッチを調べることをお勧めします:RAgzip

于 2013-02-25T15:20:00.963 に答える