1

次の構造で構成されるフラットファイルがあります。

A1 B1 C1 D1 E1 F1 G1  
A2 B2 C2 D2 E2 F2 G2  
A3 B3 C3 D3 E3 F3 G3

このファイルには約100万行あります

次の統計を生成したいと思います。

  1. ファイル の行数。
  2. 特定のの一意のレコードの数(例:B)。
  3. 行Fで並べ替えて、その行の上位nレコードを含むファイルを作成します。

この分析を行うための最良の方法は何でしょうか?私は現在MacOSXを使用しているので、Linux/Macソリューションが好まれます。

4

1 に答える 1

3

bash(Macコマンドラインシェル)で行うのは非常に簡単です。

何かのようなもの:

# 1. row count
wc -l filename

# 2. uniq count in col 1
cut -d " " -f 1 <filename> | sort | uniq | wc -l

# 3. top n uniq values in col 6, and their counts
cut -d " " -f 6 <filename> | sort | uniq -c | sort -nr | head -n <numrows>
于 2011-05-06T14:51:41.107 に答える