AmazonCloudFrontがAmazonElasticMapReduceで作成するアクセスログを処理したいと思います。
クラウドフロントからさまざまなファイルがロードされた回数に関する簡単な統計が必要なので、このための簡単なPIGスクリプトを作成する必要があると思いました。
私が抱えている最初の問題は、cloudfrontがgzipで圧縮されたログを書き込むことです。私が知る限り、pigで.gzを読み取ることはできませんか?
これをどのように行うべきかについての提案はありますか?私はelasticmapreduceに非常に慣れていないので、この種のジョブを構成する方法に関するヒントを歓迎します。