処理する大きな .csv ファイルがあり、要素は次のようにランダムに配置されます。
xxxxxx,xx, MLOCAL
, MREMOTE
, 33222
, 56
,
xxxxxx,xx, , , , 22/10/2012
,
xxxxxx,xx, , ,
xxxxxx,xx, , ,
xxxxxx,xx , , , , , xxxxxx ,
xx , , , ,
xxxxxx , xx, , ,18/10/2012
MREMOTE
MLOCAL
33222
56
22/10/2012
18/10/2012
MLOCAL
341993
22/10/2012
MREMOTE
9356828
08/10/2012
LOCAL
REMOTE
19316
15253
22/10/2012
22/10/2012
REMOTE
LOCAL
1865871
383666
22/10/2012
22/10/2012
REMOTE
1180306134
19/10/2012
フィールドLOCAL
、REMOTE
、MLOCAL
またはMREMOTE
は次のように表示されます。
- それらがペア ( LOCAL / REMOTE ) として表示される場合、3 番目のフィールドが
MLOCAL
で、4 番目のフィールドがMREMOTE
の場合、5 番目と7 番目のフィールドは の値と日付を表しMLOCAL
、6 番目と8番目のフィールドは の値と日付を表しますMREMOTE
- それらが単一 ( only
LOCAL
または onlyREMOTE
) として表示される場合、4 番目と 5 番目のフィールドはフィールド 3 の値と日付を表します。
ここで、次を使用してこれらの行を分割しました。
nawk 'BEGIN{
while (getline < "'"$filedata"'")
split($0,ft,",");
name=ft[1];
ID=ft[2]
?=ft[3]
?=ft[4]
....................
しかし、3 番目と 4 番目のフィールドのパターンが見つからないため、さらに処理するために配列要素のそれぞれに var 名を割り当て続けなければなりません。
ここで、「case」ステートメントを使用しようとしましたが、awk または nawk では機能しません (gawk のみが期待どおりに機能しています)。私もこれを試しました:
if ( ft[3] == "MLOCAL" && ft[4]!= "MREMOTE" )
{
MLOCAL=ft[3];
MLOCAL_qty=ft[4];
MLOCAL_TIMESTAMP=ft[5];
}
else if ( ft[3] == MLOCAL && ft[4] == MREMOTE )
{
MLOCAL=ft[3];
MREMOTE=ft[4];
MOCAL_qty=ft[5];
MREMOTE_qty=ft[6];
MOCAL_TIMESTAMP=ft[7];
MREMOTE_TIMESTAMP=ft[8];
}
else if ( ft[3] == MREMOTE && ft[4] != MOCAL )
{
MREMOTE=ft[3];
MREMOTE_qty=ft[4];
MREMOTE_TIMESTAMP=ft[5];
..........................................
しかし、それはうまくいきません。
ですから、これをどのように処理するかについて何か考えがある場合は、考えられるすべての状況を上からカバーするためのパターンを見つけることができるように、ヒントを教えていただければ幸いです。
編集
このすべての助けに感謝する方法がわかりません。さて、私がしなければならないことは、上で書いたよりも複雑です。できる限り簡単に説明しようと思います。そうしないと、皆さんをかなり混乱させるでしょう。私の出力は次のようになります。
NAME
, UNIQUE_ID
, VOLUME_ALOCATED
, MLOCAL_VALUE
, MLOCAL_TIMESTMP
, MLOCAL_limit
, LOCAL_VALUE
, LOCAL_TIMESTAMP
, LOCAL_limit
, MREMOTE_VALUE
, MREMOTE_TIMESTAMP
_ REMOTE_VALUE
_REMOTE_TIMESTAMP
(ここでMLOCAL_limit
、 とはとまたはLOCAL_limit
の間の減算結果です)VOLUME_ALOCATED
MLOCAL_VALUE
LOCAL_VALUE
したがって、私の出力ファイルでは、フィールドの位置は次の
ように配置
する必要があります。MLOCAL_VALUE
MLOCAL_TIMESTMP
LOCAL_VALUE
LOCAL_TIMESTAMP
MREMOTE_VALUE
MREMOTE_TIMESTAMP
REMOTE_VALUE
REMOTE_TIMESTAMP
ここで、例は次のようになります: 次の入力の場合: name
, ID
, VOLUME_ALLOCATED
, MLOCAL
, MREMOTE
, 33222
, 56
,22/10/2012
18/10/2012
name
、ID
、VOLUME_ALLOCATED
、REMOTE
、234455
_19/12/2012
この行を処理する必要があり、出力は次のようになります。
name
, ID
, VOLUME_ALLOCATED
, 33222
, 22/10/2012
, MLOCAL_LIMIT
, ,
,
,
56
, 18/10/2012
_ _
7th
、8th
、9th
、 、およびに関する情報がないため、 、 、 12th
、 およびフィールドは空です: 、、、および13th
LOCAL_VALUE
LOCAL_TIMESTAMP
LOCAL_limit
REMOTE_VALUE
REMOTE_TIMESTAMP
また
name
, ID
, VOLUME_ALLOCATED
, ,
,
,
,
,
,
,
_
234455
_9/12/2012
4th
、5th
、6th
、7th
、 、8th
、9th
、10th
、、11th
、 に関する情報がないため、フィールドは空の値である必要があります: MLOCAL_VALUE
、MLOCAL_TIMESTAMP
、MLOCAL_LIMIT
、LOCAL_VALUE
、LOCAL_TIMESTAMP
、LOCAL_LIMIT
、MREMOTE_VALUE
MREMOTE_TIMESTAMP
VOLUME_ALLOCATED
ID
次のように、スクリプトで以前に処理されたフィールドに基づいて、他の csv ファイル (「info.csv」と呼ばれる) から取得されます。
情報.csv
VOLUME_ALLOCATED
, ID
, CLIENT
5242881
, 64
, subscriber
567743
, 24
_visitor
データ.csv
NAME
, 64
, MLOCAL
, 341993
, 23/10/2012
NAME
, $ , $ , $ 24
_LOCAL
REMOTE
2347
4324
19/12/2012
18/12/2012
今、私のコードはこれです:
#! /usr/bin/bash
input="info.csv"
filedata="data.csv"
outfile="out"
nawk 'BEGIN{
while (getline < "'"$input"'")
{
split($0,ft,",");
volume=ft[1];
id=ft[2];
client=ft[3];
key=id;
volumeArr[key]=volume;
clientArr[key]=client;
}
close("'"$input"'");
while (getline < "'"$filedata"'")
{
gsub(/\$/,","); # substitute the $ separator with comma
split($0,ft,",");
volume=volumeArr[id]; # Get the volume from the volumeArr, using "id" as key
segment=clientArr[id]; # Get the client mode from the clientArr, using "id" as key
NAME=ft[1];
id=ft[2];
3 番目と 4 番目のフィールドを処理する方法がわからないため、残りのフィールドを設定する正しい方法が見つかりません。
? =ft[3];
? =ft[4];
かなり混乱させて申し訳ありませんが、これが私の現在の状況です。ありがとう