;-で区切られた16GBのCSVがあり、フィールドは常に引用符で囲まれています。2番目のフィールドが空白の行をすばやく除外する必要があります。
"12345";"987";"..." # keep it
"67890";"";"..." # omit it
最初の2つのフィールドは、パフォーマンスにとって重要な場合は数値のみです。
私は、awkがこのための最もパフォーマンスの高いツールであるかもしれないと思いますが、私はそれを正しく理解できないようです。私はこれを試しましたが、ほとんどの行が間違って省略されています:
cat huge.csv | awk '/^"\d+";"\d/' > filtered.csv
もちろん、それは厄介である必要はありません。LinuxとOSXで一般的に見られるコマンドラインツールならどれでもかまいません。