エンコードを受け付けない HTTP サーバーから 28 GB (非圧縮) の CSV ファイルをダウンロードしていますgzip
。ファイル全体をダウンロードしてから圧縮するとgzip
、6.6GB のファイルになります。aria2c
並列ダウンロード オプション (-x
および) を使用してダウンロード-s
するが、既に圧縮されているファイルを保存したいので、ディスク容量と I/O を節約できます (圧縮されていないバージョンをダウンロードして実行すると、gzip file.csv
28+6.6GB が必要になります)非圧縮で保存してから圧縮して保存するすべての I/O を実行する必要があります)。
注: 現在、行の Python ライブラリを使用して圧縮バージョン (例はこちら) をダウンロードして保存していますが、並列ダウンロードはサポートされておらず、ダウンロードが完了するまでに時間がかかりすぎるため、並列にする必要があります。