EC2 / S3にデータクランチアプリケーションをデプロイすることについて多くのことが書かれていますが、そのようなアプリケーションを開発するための典型的なワークフローは何ですか?
最初に1TBの時系列データがあり、これをS3に保存できたとします。アプリケーションを作成し、インタラクティブなデータ分析を行って機械学習モデルを構築し、それらをテストするための大規模なプログラムを作成するにはどうすればよいですか?言い換えれば、そのような状況で開発環境をセットアップするにはどうすればよいのでしょうか。EC2インスタンスを起動し、そのインスタンスでソフトウェアを開発して変更を保存し、作業を行うたびにシャットダウンしますか?
通常、私はRまたはPylabを起動し、ローカルドライブからデータを読み取り、分析を行います。次に、その分析に基づいてアプリケーションを作成し、そのデータを解放します。
EC2では、それができるかどうかわかりません。人々は分析のためにデータをローカルに保持し、実行する大規模なシミュレーションジョブがある場合にのみEC2を使用しますか?
私は他の人々が何をしているのか、特にEC2/S3に基づいたインフラストラクチャ全体を持っている新興企業を知りたいと思っています。