amazon-ec2 - grep の結果、元のファイルにあるより多くの行が表示されます

翻译自：https://stackoverflow.com/questions/16825929 2013-05-30T00:11:10.127

61 次

-1

行をフィルタリングするために相互に排他的な2つの正規表現を使用して、いくつかの非常に大きなcsvファイル（それぞれ約2400万行）をgrepしています。正規表現やファイルを共有することはできません（ダウンロードしたくないというわけではありません）。

考え方は、正規表現 A に一致する行がファイル A にパイプされ、正規表現 B に一致する行がファイル B にパイプされるというものです。

このプロセスが完了すると、最終的にターゲットファイルに約 500 万行が追加されます。

正規表現は相互に排他的であることが保証されており、行数は正しいです。

タスクは Amazon EC2 ノードで実行されています。クラウドで grep を実行しているときに、この種の問題を見たことがありますか?

1 に答える 1