数TBのログデータをスライスする必要があり、コマンドラインの速度を優先します。処理する前にファイルをチャンクに分割しますが、いくつかのセクションを削除する必要があります。
形式の例を次に示します。
uuJ oPz eeOO 109 66 8
uuJ oPz eeOO 48 0 221
uuJ oPz eeOO 9 674 3
kf iiiTti oP 88 909 19
mxmx lo uUui 2 9 771
mxmx lo uUui 577 765 27878456
最初の3文字の英数字の文字列の間のギャップはスペースです。その後はすべてタブです。行は。で区切られ \n
ます。
各グループの最後の行だけを残しておきたい。
グループに1行しかない場合は、それを保持する必要があります。
期待される出力は次のとおりです。
uuJ oPz eeOO 9 674 3
kf iiiTti oP 88 909 19
mxmx lo uUui 577 765 27878456
sed、awk、xargsなどでこれを行うにはどうすればよいですか、それともPythonのようなより高いレベルのものを使用する必要がありますか?