7

EC2は、分散可能な(並列化可能な)プロセスを実行するための非常に便利なオンデマンドのスケーラブルなメカニズムを提供し、S3は信頼性の高いストレージサービスを提供します。

私はETLと分析プロセスにEC2ノードを採用しようとしていましたが、このプロセスでは、大量のデータ(100GB〜1TB)を非常に迅速に(1日に数回)取り込み、適切なコンピューティングリソースを短時間で利用できるようにする必要があります。

上記の設計には

  1. S3とEC2間の高帯域幅/高速接続。
  2. S3-> EC2接続も信頼できる必要があります。これは、コストを節約するだけでなく、SLAが関係するため、開始、データのポンプイン、プロセスの実行、ノードの終了のスケジューリングをできるだけ早く実行する必要があるためです。

しかし、まだ

  1. S3からデータを引き出す唯一の手段はhttp経由であるように思われるため、EC2ノードのダウンロード帯域幅によって制約されます。
  2. また、データの取り込みはインターネットを介して行われるため、厳密なスケジューリングの目的では信頼性が低く、ジョブ間で適切なバッファリングが必要になる可能性があります。

プライベートデータセンターのセットアップでは、ストレージと物理ノードの間に高速(たとえば10Gbps)の専用回線をセットアップできます。

上記の要件に対応できるawsの場合、可能な代替/サービスオプションはありますか?

4

3 に答える 3

5

S3と同じリージョンにいるかどうかに関係なく、同じ物理サーバー上の他のEC2インスタンスが実行しているネットワークアクティビティの量、一度にヒットしている特定のS3ノードなど、あらゆる種類のものに大きく依存します。エンドポイントなど。

自分でベンチマークを行うことはできますが、それでも大きく異なります。1秒あたり数メガバイトになることもあれば、数百キロバイトになることもあります。

于 2012-06-14T20:54:45.187 に答える
5

今はもっと良い答えがあると思います。

S3とEC2間の信頼性の高いデータ転送を提供する別のサービスデータパイプラインがあります

于 2013-06-10T02:47:33.930 に答える
2

少なくとも私は最近これを見つけました(おそらくしばらくの間利用可能かもしれませんが)。Cloudberryは、S3からEC2にデータを転送するための非常に高速な方法を提供します。速度の範囲は40MBPSから50MBPSです。プロセスは次のとおりです。http://www.cloudberrylab.com/free-amazon-s3-explorer-cloudfront-IAM.aspxからcbs/wをダウンロードします。S3に接続します。ファイルが表示されたら、ファイルを右クリックしてコピーし、weburlを選択します。これにより、ファイルのweburlが表示されます。URL全体をコピーし、AWS VMでwgetを使用してURLの内容を取得します(wget[コピーされたURL]

私はまだVMからS3にデータをコピーするためのツールを探しています。S3cmdは低速で、頻繁に中断します。

于 2013-05-10T14:58:14.933 に答える