これが私が直面している問題です:
- サイズが100G以下のテキストファイルを文字列処理しています。
- ファイルを何百もの小さなファイルに分割し、それらを並行して処理することで、ランタイムを改善しようとしています。
- 最後に、結果のファイルを順番にまとめます。
ファイルの読み書き時間自体に何時間もかかるので、以下の点を改善する方法を見つけたいです。
cat file1 file2 file3 ... fileN >> newBigFile
これには、
file1
...fileN
が 100G をnewBigFile
占有し、さらに 100Gb を消費し、さらにfile1
...fileN
が削除されるため、2 倍のディスク容量が必要になります。データはすでに
file1
...fileN
にcat >>
あり、何百ものファイルを 1 つのファイルとして再表示するだけで本当に必要なときに、読み取りと書き込みの時間がかかります...