1

Pig または Hadoop ストリーミングを使用して、zip ファイルを読み込んで解凍した人はいますか? 元の csv ファイルは pkzip を使用して圧縮されています。

4

1 に答える 1

1

主にJavaでMapReduceを使用することに焦点を当てているため、これが役立つかどうかはわかりませんが、hadoopで利用可能なZipFileInputFormatがあります。Java API 経由での使用については、次で説明します。

http://cotdp.com/2012/07/hadoop-processing-zip-files-in-mapreduce/

この主要部分は、Java の ZipInputStream を使用して各 ZipEntry を処理する ZipFileRecordReader です。Hadoop リーダーは、各 ZipEntry のファイル パスをキーとして渡し、ZipEntry の内容を値として渡すため、そのままでは機能しない可能性があります。

于 2012-10-05T01:42:10.957 に答える