linux - linux awkが2つのcsvファイルを比較し、フラグ付きの新しいファイルを作成します

Question

2つのCSVファイルがあり、それらを比較して、新しくフォーマットされたファイルとの違いを取得する必要があります。サンプルを以下に示します。

OLDファイル

DTL,11111111,1111111111111111,11111111111,Y,N,xx,xx
DTL,22222222,2222222222222222,22222222222,Y,Y,cc,cc
DTL,33333333,3333333333333333,33333333333,Y,Y,dd,dd
DTL,44444444,4444444444444444,44444444444,Y,Y,ss,ss
DTL,55555555,5555555555555555,55555555555,Y,Y,qq,qq

新しいファイル

DTL,11111111,1111111111111111,11111111111,Y,Y,xx,xx
DTL,22222222,2222222222222222,22222222222,Y,N,cc,cc
DTL,44444444,4444444444444444,44444444444,Y,Y,ss,ss
DTL,55555555,5555555555555555,55555555555,Y,Y,qq,qq
DTL,77777777,7777777777777777,77777777777,N,N,ee,ee

出力ファイル

古いCSVファイルと新しいCSVファイルを比較し、新しいファイルに影響を与えた変更を見つけて、これらの変更を示すためにフラグを更新したいと思います。

U-新しいファイルレコードが更新された場合D-古いファイルに存在するレコードが新しいファイルで削除された場合N-新しいファイルに存在するレコードが古いファイルで使用できない場合

サンプル出力ファイルはこちらです。

DTL,11111111,1111111111111111,11111111111,Y,Y,xx,xx U
DTL,22222222,2222222222222222,22222222222,Y,N,cc,cc U
DTL,33333333,3333333333333333,33333333333,Y,Y,dd,dd D
DTL,77777777,7777777777777777,77777777777,N,N,ee,ee N

diffコマンドを使用しましたが、UPDATEDレコードも繰り返されます。これは必要ありません。

 DTL,11111111,1111111111111111,11111111111,Y,N,xx,xx
 DTL,22222222,2222222222222222,22222222222,Y,Y,cc,cc
 DTL,33333333,3333333333333333,33333333333,Y,Y,dd,dd
  ---
 DTL,11111111,1111111111111111,11111111111,Y,Y,xx,xx
 DTL,22222222,2222222222222222,22222222222,Y,N,cc,cc
 5a5
 DTL,77777777,7777777777777777,77777777777,N,N,ee,ee

AWKの1行コマンドを使用してレコードも除外しました

 awk 'NR==FNR{A[$1];next}!($1 in A)' FS=: old.csv new.csv

これに伴う問題は、OLDファイルにのみ属するレコードを取得できないことです。これは

DTL,33333333,3333333333333333,33333333333,Y,Y,dd,dd

これを実現するためにドリブンbashスクリプトも開始しましたが、良い例ではあまり役に立ちませんでした。

 myscript.awk

BEGIN { 
        FS = ","    # input field seperator 
        OFS = ","   # output field seperator
}

NR > 1 {
    #flag 
    # N - new record  D- Deleted U - Updated

id = $1
    name = $2
    flag = 'N'

   # This prints the columns in the new order. The commas tell Awk to use the     character set in OFS
    print id,name,flag
}

 >> awk -f  myscript.awk  old.csv new.csv > formatted.csv

score 7 · Accepted Answer

これはあなたのために働くかもしれません：

diff  -W999 --side-by-side OLD NEW |
sed '/^[^\t]*\t\s*|\t\(.*\)/{s//\1 U/;b};/^\([^\t]*\)\t*\s*<$/{s//\1 D/;b};/^.*>\t\(.*\)/{s//\1 N/;b};d'
DTL,11111111,1111111111111111,11111111111,Y,Y,xx,xx U
DTL,22222222,2222222222222222,22222222222,Y,N,cc,cc U
DTL,33333333,3333333333333333,33333333333,Y,Y,dd,dd D
DTL,77777777,7777777777777777,77777777777,N,N,ee,ee N

同じ線に沿ったawkソリューション：

diff -W999 --side-by-side OLD NEW |
awk '/[|][\t]/{split($0,a,"[|][\t]");print a[2]" U"};/[\t] *<$/{split($0,a,"[\t]* *<$");print a[1]" D"};/>[\t]/{split($0,a,">[\t]");print a[2]" N"}'
DTL,11111111,1111111111111111,11111111111,Y,Y,xx,xx U
DTL,22222222,2222222222222222,22222222222,Y,N,cc,cc U
DTL,33333333,3333333333333333,33333333333,Y,Y,dd,dd D
DTL,77777777,7777777777777777,77777777777,N,N,ee,ee N

score 2 · Accepted Answer

良い出発点はおそらく次のとおりです。

 diff -e OLD NEW

これは以下を出力します:

 5a
 DTL,77777777,7777777777777777,77777777777,N,N,ee,ee
 .
 1,3c
 DTL,11111111,1111111111111111,11111111111,Y,Y,xx,xx
 DTL,22222222,2222222222222222,22222222222,Y,N,cc,cc

これは、5 行目 (5a) でレコードを追加し、1 行目と 3 行目 (1,3c) でレコードを変更したことを意味します。

この形式をそのまま使用できない場合 (標準を使用するとよいでしょう)、記述した形式に変換するスクリプトを作成する必要があります。

linux - linux awkが2つのcsvファイルを比較し、フラグ付きの新しいファイルを作成します

2 に答える 2

Related

Reference