RAR ユーティリティ (100 GB の非圧縮、20 GB の圧縮) を使用して大きなマルチパート圧縮 CSV ファイルを取得したので、Google Cloud Storage にアップロードされた 100 個の RAR ファイル パーツがあります。Google Cloud Storage に抽出する必要があります。GAE上でPythonが使えれば最高です。何か案は?ダウンロード、抽出、アップロードしたくありません。すべてをクラウドで実現したい。
5740 次
2 に答える
4
クラウドで RAR ファイルを直接解凍/抽出する方法はありません。gsutil -m
(マルチスレッド/マルチプロセッシング)オプションを知っていますか?それらを並行して実行することにより、転送を高速化します。私はこのシーケンスを提案します:
- 圧縮アーカイブファイルをダウンロードする
- ローカルで解凍
- を使用して、解凍されたファイルを並行してアップロードします
gsutil -m cp file-pattern dest-bucket
非常に遅いインターネット接続を使用していない限り、20GB はそれほど長くはかからないはずです (1 時間もかからないと思います)。アーカイブ ファイルのサイズ)。
ところで、ファイル内のおよび変数をgsutil -m
介して使用される並列処理を調整できます。parallel_thread_count
parallel_process_count
$HOME/.boto
于 2012-10-20T18:35:37.487 に答える