1

GCE クラスターと gsutil を使用して、Amazon S3 から GCS に最大 50Tb のデータを転送する予定です。これまでのところ、使用しなければならない多くのインスタンスに負荷を分散する良い方法がありますが、ローカル クラスターで達成したものと比較して、転送速度がかなり遅くなります。ここに私がやっていることの詳細があります

インスタンスタイプ: n1-highcpu-8-d

画像: debian-6-squeeze

ジョブ中の典型的な負荷平均: 26.43、23.15、21.15

70 GB テストでの平均転送速度 (単一インスタンスの場合): ~21 mbps

平均ファイルサイズ: ~300mb

.boto プロセス数: 8

.boto スレッド数: 10

一度に約 400 個の s3 ファイルに対して gsutil を呼び出しています。

gsutil -m cp -InL manifest.txt gs://my_bucket 

各インスタンスでこの転送を高速化する方法についてアドバイスが必要です。また、n1-highcpu-8-d インスタンスが最良の選択であるかどうかについても 100% ではありません。できれば自分でpythonを使って並列化することも考えていたのですが、gsutilの設定をいじれば良い結果が得られるのではないかと思います。どんなアドバイスでも大歓迎です

4

2 に答える 2

0

boto 構成 (通常は ~/.boto) ファイルで parallel_thread_count と parallel_process_count の値を使用します。

次のように入力して、-m オプションの詳細を取得できます。

gsutil ヘルプ オプション

于 2013-06-08T16:55:21.877 に答える