データがメモリに収まらない場合に Unix で巨大なファイルをソートするというトピックについて、Web 上で多くの議論があります。通常、マージソートとバリアントを使用します。
ただし、データ全体を収めるのに十分なメモリがあったとしたら、最も効率的/最速の並べ替え方法は何でしょうか? csv ファイルは最大 50 GB (> 10 億行) で、データ全体を保持するのに十分なメモリ (データのサイズの 5 倍) があります。
Unix ソートを使用できますが、それでも 1 時間以上かかります。必要な言語は何でも使用できますが、主に求めているのは速度です。データを列型のデータベーステーブルとソートにロードできることは理解していますが、それは1回限りの作業なので、もっと機敏なものを探しています...
前もって感謝します。