Gzip された .arc ファイルで MapReduce タスクを実行しています。この質問と同様に、Gzip 解凍が自動的に実行されているため (ファイルの拡張子が .gz であるため) 問題が発生していますが、Unix ファイル エンコーディングに従って改行/改行が単なる改行としてレンダリングされるという問題が発生しています。これにより、ファイルに埋め込まれた特定の文字数に依存するため、入力が完全に読み取れなくなります。Gzip 解凍を無効にしようとしているので、代わりにマッパーで正しく行うことができます。私が試してみました:
-jobconf stream.recordreader.compression=none
しかし、それは圧縮に影響を与えないようです。入力の Gzip 解凍を防ぐ方法はありますか?
ありがとう - ジェフ