2種類のデータがあります-
1) スキーマレス (完全にスキーマレスというわけではありませんが、列は時間の経過とともに増加し続けており、スキーマが変更されたときにロード/パブリッシュ ジョブを変更したくありません)。このデータは現在、key-val storage に保存されています。キーの数は約1000です。ペアの数は約7億です。
2) RDBMS テーブル - それぞれ数百万行のテーブルのセット。
上記のすべてのデータの分析 (できれば SQL を使用) を可能にするデータ ストアを作成する必要があります。私はこの問題のいくつかの解決策を検討していましたが、Spark や Apache Drill などでこの問題を解決できると感じました。これは Spark-Shark の正しい使用例ですか? このユースケースで使用できる他のデータストア/ソリューションは何ですか? Cassandra? モンゴDB?
ありがとう。