Greenplum DB に TB の構造化データがあります。データに対して基本的に MapReduce ジョブを実行する必要があります。
このデータが (ストリーミング方式で) メモリに収まるように、少なくとも MapReduce の機能を再実装していることに気付きました。
それから、より完全な解決策を求めて他の場所を探すことにしました。
私は Scala を使用しており、Spark のベンチマークは驚異的であるため、Pivotal HD + Spark を検討しました。しかし、この背後にあるデータストアである HDFS は、Greenplum よりも効率が悪いと思います。(「私は信じる」に注意してください。私が間違っていることを知ってうれしいですが、いくつかの証拠を教えてください。)
そこで、Greenplum ストレージ レイヤーを維持するために、Pivotal の HAWQ を調べました。これは基本的に、Greenplum 上の SQL を使用した Hadoop です。
このアプローチでは多くの機能が失われます。主にSparkの使用。
それとも、組み込みの Greenplum 機能を使用する方がよいのでしょうか?
そのため、どの方法が最善なのかわからないという岐路に立っています。リレーショナル DB モデルに適した TB 規模のデータを処理したいと考えており、Spark と MapReduce の利点を活用したいと考えています。
求めすぎですか?