hadoop - Pig で複雑な Web ログ構文をロードするには?

Question

私はPigの完全な初心者です。cdh4 pig をインストールし、cdh4 クラスターに接続しています。大量になるこれらの Web ログファイルを処理する必要があります (ファイルは既に HDFS にロードされています)。残念ながら、ログ構文はかなり複雑です (典型的なコンマ区切りファイルではありません)。制限は、ログファイルが大きすぎてコピーを保存する余裕がないため、現在、他のツールでログファイルを前処理できないことです。ログの生の行は次のとおりです。

"2013-07-02 16:17:12 -0700","?c=Thing.Render&d={%22renderType%22:%22Primary%22,%22renderSource%22:%22Folio%22,%22things%22:[ {%22itemId%22:%225442f624492068b7ce7e2dd59339ef35%22,%22userItemId%22:%22873ef2080b337b57896390c9f747db4d%22,%22listId%22:%22bf5bbeaa8eae459a83fb9e2ceb99930d%22,%22ownerId%22:%222a4034e6b2e800c3ff2f128fa4f1b387%22}],%22redirectId%22:%22tgvm %22,%22sourceId%22:%226da6f959-8309-4387-84c6-a5ddc10c22dd%22,%22valid%22:false,%22pageLoadId%22:%224ada55ef-4ea9-4642-ada5-d053c45c00a4%22,%22clientTime%22 :%222013-07-02T23:18:07.243Z%22,%22clientTimeZone%22:5,%22process%22:%22ml.mobileweb.fb%22,%22c%22:%22Thing.Render%22}", "http://m.someurl.com/listthing/5442f624492068b7ce7e2dd59339ef35?rdrId=tgvm&userItemId=873ef2080b337b57896390c9f747db4d&fmlrdr=t&itemId=5442f624492068b7ce7e2dd59339ef35&subListId=bf5bbeaa8eae459a83fb9e2ceb99930d&puid=2a4034e6b2e800c3ff2f128fa4f1b387&mlrdr=t ","Mozilla/5.0 (iPhone; CPU iPhone OS 6_1_3 like Mac OS X) AppleWebKit/536.26 (Gecko のような KHTML) Mobile/10B329 [FBAN/FBIOS;FBAV/6.2;FBBV/228172;FBDV/iPhone4,1;FBMD/iPhone;FBSN/iPhone OS;FBSV/6.1.3;FBSS/2; FBCR/スプリント;FBID/電話;FBLC/en_US;FBOP/1]","10.nn.nn.nnn","nn.nn.nn.nn, nn.nn.0.20"

お気づきかもしれませんが、そこにはいくつかの json が埋め込まれていますが、それは URL エンコードされています。URL デコード後 (Pig は URL デコードを実行できますか?)、json は次のようになります。

{"renderType":"Primary","renderSource":"Folio","things":[{"itemId":"5442f624492068b7ce7e2dd59339ef35","userItemId":"873ef2080b337b57896390c9f747db4d","listId":"bf5bbeaa8eae459a83fb9e2ceb99930d","ownerId" :"2a4034e6b2e800c3ff2f128fa4f1b387"}],"redirectId":"tgvm","sourceId":"6da6f959-8309-4387-84c6-a5ddc10c22dd","valid":false,"pageLoadId":"4ada55ef-4ea9-4642-ada5- d053c45c00a4","clientTime":"2013-07-02T23:18:07.243Z","clientTimeZone":5,"プロセス":"ml.mobileweb.fb","c":"Thing.Render"}

json のさまざまなフィールドと、実際にはコレクションである「things」フィールドを抽出する必要があります。ログ内の他のクエリ文字列値も抽出する必要があります。Pig はこの種のソースデータを直接処理できますか? もしそうなら、Pig がそれを解析してロードできるようにする方法を教えていただけませんか?

ありがとうございました！

score 1 · Accepted Answer

私はたくさん実験し、たくさんのことを学びました。いくつかの json ライブラリ、piggybank、および java.net.URLDecoder を試しました。CSVExcelStorage も試してみました。ライブラリを登録し、問題を部分的に解決できました。より大きなデータセットに対してテストを実行すると、ソースデータの一部の行でエンコードの問題が発生し始め、例外とジョブの失敗が発生しました。そのため、Pig の組み込みの正規表現機能を使用して目的の値を抽出することになりました。

A = load '/var/log/live/collector_2013-07-02-0145.log' using TextLoader();
-- fix some of the encoding issues
A = foreach A GENERATE REPLACE($0,'\\\\"','"'); 
-- super basic url-decode
A = foreach A GENERATE REPLACE($0,'%22','"');

-- extract each of the fields from the embedded json
A = foreach A GENERATE 
    REGEX_EXTRACT($0,'^.*"redirectId":"([^"\\}]+).*$',1) as redirectId, 
    REGEX_EXTRACT($0,'^.*"fromUserId":"([^"\\}]+).*$',1) as fromUserId, 
    REGEX_EXTRACT($0,'^.*"userId":"([^"\\}]+).*$',1) as userId, 
    REGEX_EXTRACT($0,'^.*"listId":"([^"\\}]+).*$',1) as listId, 
    REGEX_EXTRACT($0,'^.*"c":"([^"\\}]+).*$',1) as eventType,
    REGEX_EXTRACT($0,'^.*"renderSource":"([^"\\}]+).*$',1) as renderSource,
    REGEX_EXTRACT($0,'^.*"renderType":"([^"\\}]+).*$',1) as renderType,
    REGEX_EXTRACT($0,'^.*"engageType":"([^"\\}]+).*$',1) as engageType,
    REGEX_EXTRACT($0,'^.*"clientTime":"([^"\\}]+).*$',1) as clientTime,
    REGEX_EXTRACT($0,'^.*"clientTimeZone":([^,\\}]+).*$',1) as clientTimeZone;

フィールドの順序が異なる場合に備えて、REGEX_EXTRACT_ALL を使用しないことにしました。

score 1 · Accepted Answer

このような複雑なタスクの場合、通常は Load 関数を作成する必要があります。Chapter 11. Writing Load and Store Functions in Programming Pigをお勧めします。公式ドキュメントのロード/ストア関数は単純すぎます。

hadoop - Pig で複雑な Web ログ構文をロードするには?

2 に答える 2

Related

Reference