4

RAR ユーティリティ (100 GB の非圧縮、20 GB の圧縮) を使用して大きなマルチパート圧縮 CSV ファイルを取得したので、Google Cloud Storage にアップロードされた 100 個の RAR ファイル パーツがあります。Google Cloud Storage に抽出する必要があります。GAE上でPythonが使えれば最高です。何か案は?ダウンロード、抽出、アップロードしたくありません。すべてをクラウドで実現したい。

4

2 に答える 2

4

クラウドで RAR ファイルを直接解凍/抽出する方法はありません。gsutil -m(マルチスレッド/マルチプロセッシング)オプションを知っていますか?それらを並行して実行することにより、転送を高速化します。私はこのシーケンスを提案します:

  • 圧縮アーカイブファイルをダウンロードする
  • ローカルで解凍
  • を使用して、解凍されたファイルを並行してアップロードしますgsutil -m cp file-pattern dest-bucket

非常に遅いインターネット接続を使用していない限り、20GB はそれほど長くはかからないはずです (1 時間もかからないと思います)。アーカイブ ファイルのサイズ)。

ところで、ファイル内のおよび変数をgsutil -m介して使用される並列処理を調整できます。parallel_thread_countparallel_process_count$HOME/.boto

于 2012-10-20T18:35:37.487 に答える