0

.gzファイルは、gzputs&gzwriteと呼ばれるCプログラムによって作成されました。

圧縮ファイルの内容をでリストしましたが、値が正しくないことがgzip -lわかりました。この値は、最新のバイトまたは.gzファイルに書き込まれuncompressedたバイトと等しいようです。それは否定的な価値になります。gzputsgzwriteratio

これらの.gzファイルをMap/Reduceの入力として使用するとエラーが発生しました。マップフェーズでは、.gzファイルの一部しか読み取れないようです。(パーツのサイズは上記の値と同じようuncompressedです)。

誰かがCプログラムまたはMap/Reduceで何をすべきか教えてくれますか?

4

1 に答える 1

0

問題が解決しました。Map/Reduce の読み込みエラーは GZIPInputStream のバグのようです

gz ファイルを正しく読み取ることができる GZIPInputStream のようなクラスをインターネットから見つけました。次に Hadoop で TextInputFormat と LineRecordReader を拡張およびカスタマイズしました。それは今動作します。

于 2012-10-23T01:15:41.497 に答える