regex - Hadoop Pig の正規表現

Question

私の質問は、Hadoop の Pig 正規表現関数に関連しています。特に、これらの関数を使用して単純なログ行を解析できるかどうかを調べたいと思います。Streams または Java 関数を使用して目的の出力を取得できるという事実を認識しているため、Pig Latin のみを使用して回答してください。

私の懸念を実証するために、ログファイル log.txt というファイルを使用します。これには 1 行のテキストしか含まれておらず、次のコマンドを使用してアップロードされました。

data = LOAD 'farzan/log.txt' USING TextLoader() AS (line:chararray);

そこに含まれる行はダンプデータです。

(Jul 17 10:59:59 domain.domain2.company.com <2012-07-17 10:59:59.605 UTC>:[133338908]:<MDS-CS_MDS2>:<DEBUG>:<LAYER = ABC, DEVICEPIN = 25e54h40, GMETAG = 1358096454, TAG = 80, METHOD = writeDisplayImageUpdate, RESULT = 0, SIZE = 30416, DETAIL = OUTGOING>)

SPLIT ITEMS SEPARATION ISSUE 正規表現を使用してデータを分割しましょう

data_split = FOREACH data GENERATE STRSPLIT(line, ' <|[\\]>]:[\\[<]');

ダンプ data_split;

((Jul 17 10:59:59 domain.domain2.company.com,2012-07-17 10:59:59.605 UTC,133338908,MDS-CS_MDS2,DEBUG,LAYER = ABC, DEVICEPIN = 25e54h40, GMETAG = 1358096454, TAG = 80, METHOD = writeDisplayImageUpdate, RESULT = 0, SIZE = 30416, DETAIL = OUTGOING>))

結果は正しいですが、各要素をどのように分離するのですか?

score 0 · Accepted Answer

フラット化を使用:

data_split = FOREACH data GENERATE FLATTEN(STRSPLIT(line, ' <|[\\]>]:[\\[<]'));

regex - Hadoop Pig の正規表現

1 に答える 1

Related

Reference