GCE クラスターと gsutil を使用して、Amazon S3 から GCS に最大 50Tb のデータを転送する予定です。これまでのところ、使用しなければならない多くのインスタンスに負荷を分散する良い方法がありますが、ローカル クラスターで達成したものと比較して、転送速度がかなり遅くなります。ここに私がやっていることの詳細があります
インスタンスタイプ: n1-highcpu-8-d
画像: debian-6-squeeze
ジョブ中の典型的な負荷平均: 26.43、23.15、21.15
70 GB テストでの平均転送速度 (単一インスタンスの場合): ~21 mbps
平均ファイルサイズ: ~300mb
.boto プロセス数: 8
.boto スレッド数: 10
一度に約 400 個の s3 ファイルに対して gsutil を呼び出しています。
gsutil -m cp -InL manifest.txt gs://my_bucket
各インスタンスでこの転送を高速化する方法についてアドバイスが必要です。また、n1-highcpu-8-d インスタンスが最良の選択であるかどうかについても 100% ではありません。できれば自分でpythonを使って並列化することも考えていたのですが、gsutilの設定をいじれば良い結果が得られるのではないかと思います。どんなアドバイスでも大歓迎です