UNIX で csv ファイルに対して分割を実行し、いくつかの列に対して集計を実行したいと考えています。awkを使用して分割された各ファイルで、可能であれば複数の列でグループ化したいと考えています。
これを行うことができるUNIXマジックを知っている人はいますか?
サンプルファイルは次のとおりです。
customer_id,location,house_hold_type,employed,income
123,Florida,Head,true,100000
124,NJ,NoHead,false,0
125,Florida,NoHead,true,120000
126,Florida,Head,true,72000
127,NJ,Head,false,0
条件による同じグループのロケーション、house_hold_type、および AVG(収入) でグループ化されたカウントを取得したいと考えています。
これでファイルを分割して awk を実行するにはどうすればよいですか?
これは、出力の形式が異なる可能性があると予想される出力ですが、これは私が期待している全体的なデータ構造です。情報を提示する他の方法を謙虚に受け入れます。
location:[counts:['Florida':3, 'NJ':2], income_avgs:['Florida':97333, 'NJ':0]]
house_hold_type:[counts:['Head':3, 'NoHead':2], income_avgs:['Head':57333, 'NoHead':60000]]
前もって感謝します。