AWS の使用に関する質問のリストがありますが、正しい答えが得られるかどうか、または利用可能なベスト プラクティスを使用しているかどうかわかりません。
AWS を使用する前は、Macbook で次のことを行っていました。- Web スクレイピングを実行し、データをデータベースにインポートするための R スクリプトがいくつかあります。- データベースからデータを抽出して分析を行うための R スクリプトをいくつか追加します。
増大するデータ量とより複雑な分析を実行する必要があることを考えると、私の Macbook は常に負荷が高く、必要に応じてコンピューティング能力を向上させるために AWS に切り替えることにしました。私は AWS の無料利用枠を使用しています。AWS を使用してこれまでに成功したことは次のとおりです。
- EC2 インスタンスを作成し、S3 バケットからファイルを取得できました。
- R スクリプトを使用して分析を実行し、結果を S3 バケットに保存できます。
そして、ここに私の質問のリストがあります:
サイズが ~1GB のデータベースを維持するには、単純に S3 に入れ、ファイル全体を毎回 R にロードするのが良いですか?それとも、RDS サービスを試す必要がありますか?</p>
EC2 インスタンスと S3 バケット間のデータ転送には料金がかかりますか?(つまり、インスタンスと S3 の間で 10GB のデータを 1000GB と比較して、10GB のデータを送受信しても問題ありませんか?) この情報がどこにあるのかわかりません。 .
EC2 インスタンスを使用した Web スクレイピングの場合、インターネット接続に料金はかかりますか?それとも、計算を実行するか Web スクレイピングを実行するかに関係なく、使用するインスタンス タイプにのみ料金が適用されますか?</p>
AWS EBS に関する記事もいくつか読みましたが、S3、EBS、または RDS のセットアップの違いについてかなり混乱しています。
分析のために公開されているさまざまなデータを破棄する R スクリプトをさらに作成するにつれて、データ量が指数関数的に増加すると予想しています。コンピューティング能力に関しては、現在、主に並列処理と分析を行うために、MacBook が提供する以上のものを必要としています。また、将来的にいくつかの機械学習アルゴリズムをテストします。
どんなアドバイスも役に立ちます。