1

Amazon Simple DB Domain に大量のデータがあります。Elastic Map Reduce (hadoop 上) で Hive を起動し、simpledb からデータをインポートするか、simpledb に接続して hiveql クエリを実行したいと考えています。データのインポートに問題があります。ポインタはありますか?

4

1 に答える 1

2

ストリーミング Hadoop ジョブへの入力として、simpleDB の一連の select ステートメントを使用できます。

たとえば、入力に次の内容を含めることができます (簡潔な形式で):

collectionA between dates 123 and 234
collectionA between dates 235 and 559
collectionA between dates 560 and 3000
...

次に、次の変換を実行するマッパー スクリプトを実装します: input_select_statement => execute_select_statement => output_results

ストリーミングを使用すると、好きな言語のライブラリを使用でき、複雑な Hadoop Java の実装について心配する必要がないため、これは非常に簡単です。

お役に立てれば。

(それを行うハックな方法は、上記と同じことをローカルで実行する単一のスクリプトを用意することですが、結果を s3 にロードします。私は多くのデータベース データに対して毎晩そのようなスクリプトを実行します)

于 2011-06-29T03:01:14.373 に答える