amazon-s3 - 高速で信頼性の高いS3からEC2への接続を確立する方法

Question

EC2は、分散可能な（並列化可能な）プロセスを実行するための非常に便利なオンデマンドのスケーラブルなメカニズムを提供し、S3は信頼性の高いストレージサービスを提供します。

私はETLと分析プロセスにEC2ノードを採用しようとしていましたが、このプロセスでは、大量のデータ（100GB〜1TB）を非常に迅速に（1日に数回）取り込み、適切なコンピューティングリソースを短時間で利用できるようにする必要があります。

上記の設計には

S3とEC2間の高帯域幅/高速接続。
S3-> EC2接続も信頼できる必要があります。これは、コストを節約するだけでなく、SLAが関係するため、開始、データのポンプイン、プロセスの実行、ノードの終了のスケジューリングをできるだけ早く実行する必要があるためです。

しかし、まだ

S3からデータを引き出す唯一の手段はhttp経由であるように思われるため、EC2ノードのダウンロード帯域幅によって制約されます。
また、データの取り込みはインターネットを介して行われるため、厳密なスケジューリングの目的では信頼性が低く、ジョブ間で適切なバッファリングが必要になる可能性があります。

プライベートデータセンターのセットアップでは、ストレージと物理ノードの間に高速（たとえば10Gbps）の専用回線をセットアップできます。

上記の要件に対応できるawsの場合、可能な代替/サービスオプションはありますか？

score 5 · Accepted Answer

S3と同じリージョンにいるかどうかに関係なく、同じ物理サーバー上の他のEC2インスタンスが実行しているネットワークアクティビティの量、一度にヒットしている特定のS3ノードなど、あらゆる種類のものに大きく依存します。エンドポイントなど。

自分でベンチマークを行うことはできますが、それでも大きく異なります。1秒あたり数メガバイトになることもあれば、数百キロバイトになることもあります。

score 5 · Accepted Answer

今はもっと良い答えがあると思います。

S3とEC2間の信頼性の高いデータ転送を提供する別のサービスデータパイプラインがあります

score 2 · Accepted Answer

少なくとも私は最近これを見つけました（おそらくしばらくの間利用可能かもしれませんが）。Cloudberryは、S3からEC2にデータを転送するための非常に高速な方法を提供します。速度の範囲は40MBPSから50MBPSです。プロセスは次のとおりです。http://www.cloudberrylab.com/free-amazon-s3-explorer-cloudfront-IAM.aspxからcbs/wをダウンロードします。S3に接続します。ファイルが表示されたら、ファイルを右クリックしてコピーし、weburlを選択します。これにより、ファイルのweburlが表示されます。URL全体をコピーし、AWS VMでwgetを使用してURLの内容を取得します（wget[コピーされたURL]

私はまだVMからS3にデータをコピーするためのツールを探しています。S3cmdは低速で、頻繁に中断します。

amazon-s3 - 高速で信頼性の高いS3からEC2への接続を確立する方法

3 に答える 3

Related

Reference