EC2は、分散可能な(並列化可能な)プロセスを実行するための非常に便利なオンデマンドのスケーラブルなメカニズムを提供し、S3は信頼性の高いストレージサービスを提供します。
私はETLと分析プロセスにEC2ノードを採用しようとしていましたが、このプロセスでは、大量のデータ(100GB〜1TB)を非常に迅速に(1日に数回)取り込み、適切なコンピューティングリソースを短時間で利用できるようにする必要があります。
上記の設計には
- S3とEC2間の高帯域幅/高速接続。
- S3-> EC2接続も信頼できる必要があります。これは、コストを節約するだけでなく、SLAが関係するため、開始、データのポンプイン、プロセスの実行、ノードの終了のスケジューリングをできるだけ早く実行する必要があるためです。
しかし、まだ
- S3からデータを引き出す唯一の手段はhttp経由であるように思われるため、EC2ノードのダウンロード帯域幅によって制約されます。
- また、データの取り込みはインターネットを介して行われるため、厳密なスケジューリングの目的では信頼性が低く、ジョブ間で適切なバッファリングが必要になる可能性があります。
プライベートデータセンターのセットアップでは、ストレージと物理ノードの間に高速(たとえば10Gbps)の専用回線をセットアップできます。
上記の要件に対応できるawsの場合、可能な代替/サービスオプションはありますか?