私はPigの完全な初心者です。cdh4 pig をインストールし、cdh4 クラスターに接続しています。大量になるこれらの Web ログ ファイルを処理する必要があります (ファイルは既に HDFS にロードされています)。残念ながら、ログ構文はかなり複雑です (典型的なコンマ区切りファイルではありません)。制限は、ログ ファイルが大きすぎてコピーを保存する余裕がないため、現在、他のツールでログ ファイルを前処理できないことです。ログの生の行は次のとおりです。
"2013-07-02 16:17:12 -0700","?c=Thing.Render&d={%22renderType%22:%22Primary%22,%22renderSource%22:%22Folio%22,%22things%22:[ {%22itemId%22:%225442f624492068b7ce7e2dd59339ef35%22,%22userItemId%22:%22873ef2080b337b57896390c9f747db4d%22,%22listId%22:%22bf5bbeaa8eae459a83fb9e2ceb99930d%22,%22ownerId%22:%222a4034e6b2e800c3ff2f128fa4f1b387%22}],%22redirectId%22:%22tgvm %22,%22sourceId%22:%226da6f959-8309-4387-84c6-a5ddc10c22dd%22,%22valid%22:false,%22pageLoadId%22:%224ada55ef-4ea9-4642-ada5-d053c45c00a4%22,%22clientTime%22 :%222013-07-02T23:18:07.243Z%22,%22clientTimeZone%22:5,%22process%22:%22ml.mobileweb.fb%22,%22c%22:%22Thing.Render%22}", "http://m.someurl.com/listthing/5442f624492068b7ce7e2dd59339ef35?rdrId=tgvm&userItemId=873ef2080b337b57896390c9f747db4d&fmlrdr=t&itemId=5442f624492068b7ce7e2dd59339ef35&subListId=bf5bbeaa8eae459a83fb9e2ceb99930d&puid=2a4034e6b2e800c3ff2f128fa4f1b387&mlrdr=t ","Mozilla/5.0 (iPhone; CPU iPhone OS 6_1_3 like Mac OS X) AppleWebKit/536.26 (Gecko のような KHTML) Mobile/10B329 [FBAN/FBIOS;FBAV/6.2;FBBV/228172;FBDV/iPhone4,1;FBMD/iPhone;FBSN/iPhone OS;FBSV/6.1.3;FBSS/2; FBCR/スプリント;FBID/電話;FBLC/en_US;FBOP/1]","10.nn.nn.nnn","nn.nn.nn.nn, nn.nn.0.20"
お気づきかもしれませんが、そこにはいくつかの json が埋め込まれていますが、それは URL エンコードされています。URL デコード後 (Pig は URL デコードを実行できますか?)、json は次のようになります。
{"renderType":"Primary","renderSource":"Folio","things":[{"itemId":"5442f624492068b7ce7e2dd59339ef35","userItemId":"873ef2080b337b57896390c9f747db4d","listId":"bf5bbeaa8eae459a83fb9e2ceb99930d","ownerId" :"2a4034e6b2e800c3ff2f128fa4f1b387"}],"redirectId":"tgvm","sourceId":"6da6f959-8309-4387-84c6-a5ddc10c22dd","valid":false,"pageLoadId":"4ada55ef-4ea9-4642-ada5- d053c45c00a4","clientTime":"2013-07-02T23:18:07.243Z","clientTimeZone":5,"プロセス":"ml.mobileweb.fb","c":"Thing.Render"}
json のさまざまなフィールドと、実際にはコレクションである「things」フィールドを抽出する必要があります。ログ内の他のクエリ文字列値も抽出する必要があります。Pig はこの種のソース データを直接処理できますか? もしそうなら、Pig がそれを解析してロードできるようにする方法を教えていただけませんか?
ありがとうございました!