1

2種類のデータがあります-

1) スキーマレス (完全にスキーマレスというわけではありませんが、列は時間の経過とともに増加し続けており、スキーマが変更されたときにロード/パブリッシュ ジョブを変更したくありません)。このデータは現在、key-val storage に保存されています。キーの数は約1000です。ペアの数は約7億です。

2) RDBMS テーブル - それぞれ数百万行のテーブルのセット。

上記のすべてのデータの分析 (できれば SQL を使用) を可能にするデータ ストアを作成する必要があります。私はこの問題のいくつかの解決策を検討していましたが、Spark や Apache Drill などでこの問題を解決できると感じました。これは Spark-Shark の正しい使用例ですか? このユースケースで使用できる他のデータストア/ソリューションは何ですか? Cassandra? モンゴDB?

ありがとう。

4

1 に答える 1

0

Drill への寄稿者として、Drill の機能に基づいて回答します -
1. はい、Drill はスキーマレス ファイルに適しており、その場でファイル スキーマを識別します。
2. Drill には、Mongo と HBase を照会する機能が既に備わっています。RDBMS と Cassandra はまだありませんが、ロードマップにあります。

于 2015-02-27T13:51:24.743 に答える