私は数百万/十億 (10^9) のデータ入力セットを処理する必要があります。それらは静かで小さく、1kB 未満です。また、処理には約 1 秒かかります。
Apache Hadoop、Map Reduce、StarCluster について多くのことを読みました。しかし、それを処理するための最も効率的で最速の方法が何であるかわかりませんか?
Amazon EC2 などのクラウドサービスの利用を考えています。
私は数百万/十億 (10^9) のデータ入力セットを処理する必要があります。それらは静かで小さく、1kB 未満です。また、処理には約 1 秒かかります。
Apache Hadoop、Map Reduce、StarCluster について多くのことを読みました。しかし、それを処理するための最も効率的で最速の方法が何であるかわかりませんか?
Amazon EC2 などのクラウドサービスの利用を考えています。
Hadoopで多くの配管を処理するAmazonEMRのようなものを検討するかもしれません。何かをすばやくコーディングしたい場合は、Hadoopストリーミング、ハイブ、PIGはすべて、MapReduceのすべての詳細を知る必要のあるHadoopを使用せずに開始するための優れたツールです。