unique - 大きなタブ区切りファイルで、1 つのフィールドの一意の値を取得し、2 番目のフィールドでそれらの値を合計します

翻译自：https://stackoverflow.com/questions/14592707 2013-01-29T21:33:08.863

161 次

最初の投稿、私は通常潜んでいますが、自分の状況にぴったり合うものを見つけることができませんでした.

そのため、各行に 2 つのフィールドを持つ大きなタブ区切りファイル (約 30 億行) があります。1 つは固定長の文字列 (10 文字、すべて英字、すべて大文字) で、もう 1 つは可変サイズの整数です。次のように、行間の最初のフィールドのエントリの一部は同一です。

AAABBBCCCD    6
QQQQQQQQQQ    1
ZZZTOPZZZZ    299
AAABBBCCCD    14
JHFDSJKHFJ    2
ZZZTOPZZZZ    1

私がやりたいことは、最初のフィールドの値を比較し、一意のものを見つけ、それらの一意のエントリの 2 つおきのフィールド値を合計して、次のような出力を得ることです。

AAABBBCCCD    20
QQQQQQQQQQ    1
ZZZTOPZZZZ    300
JHFDSJKHFJ    2

それらが整数値でソートされているかどうかは必ずしも気にしませんが、そうであればクールです。本当に優先事項ではありません。

私はすでにテストファイルで動作するいくつかのことを perl で試しましたが、実行が遅すぎて実際には役に立ちませんでした。だから、ええ、私はどんな種類の解決策にもオープンですが、仕事をするクールで賢いbash-fuがあれば、この時点で特に興味があります.

0 に答える 0