hive - EMR Hive で動的 dynamoDB 列をマッピングする方法

Question

Amazon dynamoDB に次のようなレコード構造を持つテーブルがあります

{"username" : "joe bloggs" , "products" : ["1","2"] , "expires1" : "01/01/2013" , "expires2" : "01/02/2013"}

ここで、products プロパティはユーザーに属する製品のリストであり、expires nプロパティはリスト内の製品に関連しています。製品のリストは動的であり、多数あります。このデータを次のような形式で S3 に転送する必要があります

joe bloggs|1|01/01/2013
joe bloggs|2|01/02/2013

ハイブ外部テーブルを使用すると、dynamoDB でユーザー名と製品の列をマップできますが、動的列をマップできません。ハイブがデータを取り込む前に、dynamo から取得したデータを解釈して構造化するために、org.apache.hadoop.hive.dynamodb.DynamoDBStorageHandler を拡張または適応させる方法はありますか? または、ダイナモデータを最初の正規形に変換する代替ソリューションはありますか?

私の重要な要件の 1 つは、dynamodb.throughput.read.percent 設定によって提供されるスロットリングを維持して、テーブルの運用上の使用を損なわないようにすることです。

score 1 · Accepted Answer

その場合、特定の UDTF (ユーザー定義のテーブル生成関数) を作成できます。Hiveがアスタリスク(おそらくあなたの場合)を関数の引数としてどのように処理するかわかりません。

Explode ( source )のようなもの。

hive - EMR Hive で動的 dynamoDB 列をマッピングする方法

1 に答える 1

Related

Reference