hadoop - データダンプ処理用の DynamoDB または Hive

Question

大きなデータダンプがあります。バッチ挿入を使用して AWS DynamoDB をアップロードすることを計画しています。費用対効果の高いフローオプションは次のうちどれですか。

ビッグデータ (GiB) -> DynamoDB へのバッチ挿入 -> 分析のためのクエリ
ビッグデータ (GiB) -> AWS S3 -> Hive テーブルマッピングの作成 -> 分析のための EMR Hive クエリ [Dynamo DB なし]

DynamoDB では、EMR または EC2 からアクセスした場合、スループットの制限はありますか?

score 0 · Accepted Answer

このためにDynamoDBを使用する必要はありません。オプション2に進み、データをS3にアップロードしてから、Hiveクエリを実行します。

DynamoDBの読み取り容量EMRが使用する量には構成可能な制限があります。

score 0 · Accepted Answer

これの多くは、Hive で何を最適化しようとしているかに依存します。ORC ファイルを使用する場合は、DynamoDB を少し調べてみてください。ORC ファイルでは、データを二重にロードする必要があります。まず、データをステージングテーブルにロードする必要があります。次に、そのステージから選択し、ORC ファイルテーブルに挿入する必要があります。これにより、事実上、データを 2 回運ぶことになります。

データロードを最適化する予定がない場合は、@seedhead の応答を詳しく調べることをお勧めします。

hadoop - データダンプ処理用の DynamoDB または Hive

2 に答える 2

Related

Reference