Apache Pig v0.7は、私の側で余分な労力をかけることなくgzip圧縮されたファイルを読み取ることができます。例:
MyData = LOAD '/tmp/data.csv.gz' USING PigStorage(',') AS (timestamp, user, url);
そのデータを処理してディスクに出力できます。
PerUser = GROUP MyData BY user;
UserCount = FOREACH PerUser GENERATE group AS user, COUNT(MyData) AS count;
STORE UserCount INTO '/tmp/usercount' USING PigStorage(',');
ただし、出力ファイルは圧縮されていません。
/tmp/usercount/part-r-00000
STORE
コンテンツをgzip形式で出力するようにコマンドに指示する方法はありますか?理想的には、Amazon Elastic MapReduceを使用したいので、Pig0.6に適用できる回答が欲しいことに注意してください。しかし、Pigのいずれかのバージョンの解決策がある場合は、それを聞きたいと思います。