クラウド(MongoLabまたはMongoHQ)でホストされている大規模なMongoデータベース(100GB)があります。データに対していくつかのMap/Reduceタスクを実行して、高価な統計を計算したいと思います。これを実行するための最適なワークフローは何かと考えていました。理想的には、AmazonのMap / Reduceサービスを使用して、独自のHadoopクラスターを維持する代わりにこれを実行したいと思います。
データベースからS3にデータをコピーすることは理にかなっていますか?次に、Amazon Map / Reduceを実行しますか?または、これを行うためのより良い方法はありますか。
また、さらに先に進むと、毎日のように頻繁にクエリを実行したい場合があるため、S3のデータは、Mongoのデータを反映する必要があります。これにより、事態が複雑になりますか?
どんな提案/戦争の話も非常に役に立ちます。