amazon-ec2 - Amazon Elastic Mapreduce 上で Hive を使用して、Amazon Simple DB でデータを処理するにはどうすればよいですか?

Question

Amazon Simple DB Domain に大量のデータがあります。Elastic Map Reduce (hadoop 上) で Hive を起動し、simpledb からデータをインポートするか、simpledb に接続して hiveql クエリを実行したいと考えています。データのインポートに問題があります。ポインタはありますか？

score 2 · Accepted Answer

ストリーミング Hadoop ジョブへの入力として、simpleDB の一連の select ステートメントを使用できます。

たとえば、入力に次の内容を含めることができます (簡潔な形式で):

collectionA between dates 123 and 234
collectionA between dates 235 and 559
collectionA between dates 560 and 3000
...

次に、次の変換を実行するマッパースクリプトを実装します: input_select_statement => execute_select_statement => output_results

ストリーミングを使用すると、好きな言語のライブラリを使用でき、複雑な Hadoop Java の実装について心配する必要がないため、これは非常に簡単です。

お役に立てれば。

(それを行うハックな方法は、上記と同じことをローカルで実行する単一のスクリプトを用意することですが、結果を s3 にロードします。私は多くのデータベースデータに対して毎晩そのようなスクリプトを実行します)

amazon-ec2 - Amazon Elastic Mapreduce 上で Hive を使用して、Amazon Simple DB でデータを処理するにはどうすればよいですか?

1 に答える 1

Related

Reference