私は大学のプロジェクトでAmazonsMapReduceWebサービスを使用しています。MapReduceのデータを使用するには、リレーショナルデータベース(AWS RDS)からS3にデータをダンプする必要があります。MapReduceが終了したら、出力ファイルを分割して、そのチャンクを独自のS3バケットにロードする必要があります。
アマゾンウェブサービス環境内でこれを行うための良い方法は何ですか?
ベストケース:これは、RDSとMapReduceに使用されるもの以外に追加のEC2インスタンスを使用せずに達成できますか?
マッパー関数とレデューサー関数にはpythonを使用し、MapReduceジョブフローにはjson指定子を使用します。そうでなければ、私は言語やテクノロジーに縛られていません。