perl - 分割行を awk / gawk と組み合わせる

Question

行が X 文字を超える場合、システムはログファイル内の行を折り返します。ログからさまざまなデータを抽出しようとしていますが、最初にすべての分割行を結合して、gawk がフィールドを単一のレコードとして解析できるようにする必要があります。

例えば：

2012/11/01 field1 field2 field3 field4 fi
eld5 field6 field7
2012/11/03 field1 field2 field3
2012/12/31 field1 field2 field3 field4 fi
eld5 field6 field7 field8 field9 field10 
field11 field12 field13
2013/01/10 field1 field2 field3
2013/01/11 field1 field2 field3 field4

帰りたい

2012/11/01 field1 field2 field3 field4 field5 field6 field7
2012/11/03 field1 field2 field3
2012/12/31 field1 field2 field3 field4 field5 field6 field7 field8 field9 field10 field11 field12 field13
2013/01/10 field1 field2 field3
2013/01/11 field1 field2 field3 field4

私の場合、実際の最大行長は 130 ですgetline。ちょうど 130 文字の長さのエントリがある場合に備えて、その長さをテストして次の行に結合するために使用するのは気が進まないです。

ログファイルをクリーンアップしたら、関連するすべてのイベントを抽出する必要もあります。「関連性」には、次のような基準が含まれる場合があります。

「foo」は、レコード内の任意のフィールドのどこにでもあります
field2 ~ /bar|dtn/
if field1 ~ /xyz|abc/ && field98 == "0001"

2 つの連続した gawk プログラムを実行する必要があるかどうか、またはこれらすべてを 1 つに結合できるかどうか疑問に思っています。

私は gawk の初心者で、Unix 以外の出身です

score 2 · Accepted Answer

これはうまくいくかもしれません（GNU sed）：

sed -r ':a;$!N;\#\n[0-9]{4}/[0-9]{2}/[0-9]{2}#!{s/\n//;ta};P;D' file

score 2 · Accepted Answer

gawk '{ gsub( "\n", "" ); printf $0 RT }
    END { print }' RS='\n[0-9][0-9][0-9][0-9]/[0-9][0-9]/[0-9][0-9]' input

これは、次の方法でいくらか単純化できます。

gawk --re-interval '{ gsub( "\n", "" ); printf $0 RT }
    END { print }' RS='\n[0-9]{4}/[0-9]{2}/[0-9]{2}' input

score 2 · Accepted Answer

$ awk '{printf "%s%s",($1 ~ "/" ? rs : ""),$0; rs=RS} END{print ""}' file
2012/11/01 field1 field2 field3 field4 field5 field6 field7
2012/11/03 field1 field2 field3
2012/12/31 field1 field2 field3 field4 field5 field6 field7 field8 field9 field10 field11  field12 field13
2013/01/10 field1 field2 field3
2013/01/11 field1 field2 field3 field4

再結合されたレコードを実際に印刷するだけではないことに気付いたので、再コンパイルされたレコードでテストしやすい別の方法を次に示します (このスクリプトの「s」:

$ awk 'NR>1 && $1~"/"{print s; s=""} {s=s $0} END{print s}' file

この構造を使用すると、単に s を出力する代わりに、たとえば s に対してテストを実行できます (3 番目のレコードの「foo」に注意してください)。

$ cat file
2012/11/01 field1 field2 field3 field4 fi
eld5 field6 field7
2012/11/03 field1 field2 field3
2012/12/31 field1 field2 foo field4 fi
eld5 field6 field7 field8 field9 field10
field11 field12 field13
2013/01/10 field1 field2 field3
2013/01/11 field1 field2 field3 field4

$ awk '
function tst(rec,     flds,nf,i) {
   nf=split(rec,flds)
   if (rec ~ "foo") {
      print rec
      for (i=1;i<=nf;i++)
         print "\t",i,flds[i]
   }
}
NR>1 && $1~"/" { tst(s); s="" }
{ s=s $0 }
END { tst(s) }
' file
2012/12/31 field1 field2 foo field4 field5 field6 field7 field8 field9 field10 field11 field12 field13
         1 2012/12/31
         2 field1
         3 field2
         4 foo
         5 field4
         6 field5
         7 field6
         8 field7
         9 field8
         10 field9
         11 field10
         12 field11
         13 field12
         14 field13

score 1 · Accepted Answer

これはあなたのために働くかもしれません：

awk --re-interval '/^[0-9]{4}\//&&s{print s;s=""}{s=s""sprintf($0)}END{print s}' file

あなたの例でテストしてください：

kent$  echo "2012/11/01 field1 field2 field3 field4 fi
eld5 field6 field7
2012/11/03 field1 field2 field3
2012/12/31 field1 field2 field3 field4 fi
eld5 field6 field7 field8 field9 field10 
field11 field12 field13
2013/01/10 field1 field2 field3
2013/01/11 field1 field2 field3 field4"|awk --re-interval '/^[0-9]{4}\//&&s{print s;s=""}{s=s""sprintf($0)}END{print s}'
2012/11/01 field1 field2 field3 field4 field5 field6 field7
2012/11/03 field1 field2 field3
2012/12/31 field1 field2 field3 field4 field5 field6 field7 field8 field9 field10 field11 field12 field13
2013/01/10 field1 field2 field3
2013/01/11 field1 field2 field3 field4

score 1 · Accepted Answer

これは、追加のフィルタリングも処理する少し大きな Perl ソリューションです (このperlにもタグを付けたように)。

root@virtualdeb:~# cat combine_and_filter.pl 
#!/usr/bin/perl -n 

if (m!^2\d{3}/\d{2}/\d{2} !){
    print $prevline if $prevline =~ m/field13/;
    $prevline = $_;
}else{
    chomp($prevline);
    $prevline .= $_
}


root@virtualdeb:~# perl combine_and_filter < /tmp/in.txt
2012/12/31 field1 field2 field3 field4 field5 field6 field7 field8 field9 field10 field11 field12 field13

score 0 · Accepted Answer

これを実現するための非常に短いスクリプトを次に示します。

sed '/^[[:digit:]]/ { :r N; /\n\([^[:digit:]]\)/ s:: \1:g; tr; } ' FILE

この形でよろしいですか？

perl - 分割行を awk / gawk と組み合わせる

6 に答える 6

Related

Reference