s3には、b、c、iの3種類のログ行を持つgzip圧縮されたログファイルがたくさんあります。iとcは両方ともシングルレベルのjsonです:
{"this":"that","test":"4"}
タイプbは深くネストされたjsonです。私はこの要点に出くわし、これを機能させるためにjarをコンパイルすることについて話しました。私のJavaスキルは優れたものではないので、ここから何をすべきか本当にわかりませんでした。
{"this":{"foo":"bar","baz":{"test":"me"},"total":"5"}}
タイプiとタイプcは常に同じ順序であるとは限らないため、これにより、生成正規表現ですべてを指定することが困難になります。PigでJSON(gzipファイル)を処理することは可能ですか?Amazon ElasticMapReduceインスタンスに基づいて構築されたPigのバージョンを使用しています。
これは2つの質問に要約されます:1)PigでJSONを解析できますか(もしそうなら、どのように)?2)(gzipで圧縮されたログファイルから)JSONを解析できる場合、ネストされたJSONオブジェクトを解析できますか?