apache-pig - Pig : 区切り文字が空白の解析行

Question

Hadoop Pig (0.10.0) を使用してログファイルを処理しています。ログ行は次のようになります。

2012-08-01  INFO   (User:irim)   getListedStocksByMarkets completed in 7041 ms

空白で分割されたトークンとの関係を取得したいと思います。つまり、次のとおりです。

(2012-08-01,INFO,(User:irim),getListedStocksByMarkets,completed,in,7041,ms)

ステートメントでそのデータをロードする：

records = LOAD 'myapp.log' using PigStorage(' ');

私のトークンはいくつかの空のトークンにつながるいくつかの空白で区切られる可能性があるため、それを達成できませんでした。PigStorage は正規表現区切り文字をサポートしていないようです (または、少なくともそのように構成することに成功していません)。

だから私の質問: それらのトークンを取得するための最良の方法は何でしょうか?

リレーションから空の要素を削除できれば幸いですが、 Pig でそれを行うことは可能ですか?

たとえば、次のように開始します。

(2012-08-01,,,INFO,,,(User:irim),,getListedStocksByMarkets,completed,in,7041,ms)

取得するため

(2012-08-01,INFO,(User:irim),getListedStocksByMarkets,completed,in,7041,ms)

それから別のアプローチを試みていますが、TextLoaderそれTOKENIZEが最善の戦略であるかどうかはわかりません。おそらく、ユーザー負荷関数の方がより自然な選択です...

よろしく、

ジョエル

score 2 · Accepted Answer

組み込み関数STRSPLITを正規表現とともに使用して、行をタプルに分割できます。区切り文字としてコンマを使用した特定の例のスクリプトを次に示します。

inpt = load '~/data/regex.txt' as (line : chararray);
dump inpt;
-- 2012-08-01,,,INFO,,,(User:irim),,getListedStocksByMarkets,completed,in,7041,ms

splt = foreach inpt generate flatten(STRSPLIT(line, ',+'));
dump splt;
-- (2012-08-01,INFO,(User:irim),getListedStocksByMarkets,completed,in,7041,ms)

apache-pig - Pig : 区切り文字が空白の解析行

1 に答える 1

Related

Reference