mongodb - これは Spark/Apache Drill の使用例ですか?

Question

2種類のデータがあります-

1) スキーマレス (完全にスキーマレスというわけではありませんが、列は時間の経過とともに増加し続けており、スキーマが変更されたときにロード/パブリッシュジョブを変更したくありません)。このデータは現在、key-val storage に保存されています。キーの数は約1000です。ペアの数は約7億です。

2) RDBMS テーブル - それぞれ数百万行のテーブルのセット。

上記のすべてのデータの分析 (できれば SQL を使用) を可能にするデータストアを作成する必要があります。私はこの問題のいくつかの解決策を検討していましたが、Spark や Apache Drill などでこの問題を解決できると感じました。これは Spark-Shark の正しい使用例ですか? このユースケースで使用できる他のデータストア/ソリューションは何ですか? Cassandra? モンゴDB?

ありがとう。

score 0 · Accepted Answer

Drill への寄稿者として、Drill の機能に基づいて回答します -
1. はい、Drill はスキーマレスファイルに適しており、その場でファイルスキーマを識別します。
2. Drill には、Mongo と HBase を照会する機能が既に備わっています。RDBMS と Cassandra はまだありませんが、ロードマップにあります。

mongodb - これは Spark/Apache Drill の使用例ですか?

1 に答える 1

Related

Reference