2

大きなデータ ダンプがあります。バッチ挿入を使用して AWS DynamoDB をアップロードすることを計画しています。費用対効果の高いフロー オプションは次のうちどれですか。

  1. ビッグデータ (GiB) -> DynamoDB へのバッチ挿入 -> 分析のためのクエリ
  2. ビッグデータ (GiB) -> AWS S3 -> Hive テーブル マッピングの作成 -> 分析のための EMR Hive クエリ [Dynamo DB なし]

DynamoDB では、EMR または EC2 からアクセスした場合、スループットの制限はありますか?

4

2 に答える 2

0

このためにDynamoDBを使用する必要はありません。オプション2に進み、データをS3にアップロードしてから、Hiveクエリを実行します。

DynamoDBの読み取り容量EMRが使用する量には構成可能な制限があります。

于 2012-07-19T20:56:20.860 に答える
0

これの多くは、Hive で何を最適化しようとしているかに依存します。ORC ファイルを使用する場合は、DynamoDB を少し調べてみてください。ORC ファイルでは、データを二重にロードする必要があります。まず、データをステージング テーブルにロードする必要があります。次に、そのステージから選択し、ORC ファイル テーブルに挿入する必要があります。これにより、事実上、データを 2 回運ぶことになります。

データ ロードを最適化する予定がない場合は、@seedhead の応答を詳しく調べることをお勧めします。

于 2014-01-14T13:54:16.363 に答える