2 つのテキスト ファイル (|
区切り記号付き) があり、それらを結ぶ共通の列があります。1 つのテキスト ファイルは 45G 近く (~ 1 億 2500 万行) で、もう 1 つのテキスト ファイルは 7GB と小さくなっています。
Linux でjoinコマンドを使用してみました。パフォーマンスは私には素晴らしかったです (マージを完了するのに約 90 分かかりました)。マージをさらに高速化できるツール/データ構造が他にあるかどうかを知りたかったのです。このjoin
コマンドは非常に高速ですが、このプロセス (つまり、2 つのファイルのマージ) を 70 回実行する必要があります。明らかに、これは 100 時間の処理に相当します。