linux - フラットファイルデータ分析

Question

次の構造で構成されるフラットファイルがあります。

A1 B1 C1 D1 E1 F1 G1  
A2 B2 C2 D2 E2 F2 G2  
A3 B3 C3 D3 E3 F3 G3

このファイルには約100万行あります。

次の統計を生成したいと思います。

ファイル の行数。
特定の行の一意のレコードの数（例：B）。
行Fで並べ替えて、その行の上位nレコードを含むファイルを作成します。

この分析を行うための最良の方法は何でしょうか？私は現在MacOSXを使用しているので、Linux/Macソリューションが好まれます。

score 3 · Accepted Answer

bash（Macコマンドラインシェル）で行うのは非常に簡単です。

何かのようなもの：

# 1. row count
wc -l filename

# 2. uniq count in col 1
cut -d " " -f 1 <filename> | sort | uniq | wc -l

# 3. top n uniq values in col 6, and their counts
cut -d " " -f 6 <filename> | sort | uniq -c | sort -nr | head -n <numrows>

linux - フラットファイルデータ分析

1 に答える 1

Related

Reference