行をフィルタリングするために相互に排他的な2つの正規表現を使用して、いくつかの非常に大きなcsvファイル(それぞれ約2400万行)をgrepしています。正規表現やファイルを共有することはできません(ダウンロードしたくないというわけではありません)。
考え方は、正規表現 A に一致する行がファイル A にパイプされ、正規表現 B に一致する行がファイル B にパイプされるというものです。
このプロセスが完了すると、最終的にターゲット ファイルに約 500 万行が追加されます。
正規表現は相互に排他的であることが保証されており、行数は正しいです。
タスクは Amazon EC2 ノードで実行されています。クラウドで grep を実行しているときに、この種の問題を見たことがありますか?