私は Apache Spark と Spark-SQL の経験があります。最近、Apache Drill プロジェクトを見つけました。それらの最も重要な利点/違いは何ですか? 私はすでに Fast Hadoop Analytics (Cloudera Impala vs Spark/Shark vs Apache Drill)を読んだこと がありますが、このトピックはまだよくわかりません。
10343 次
3 に答える
22
以下は、SQL テクノロジの一部について説明している記事です。
Drill は、ユーザー エクスペリエンスとアーキテクチャの両方で根本的に異なります。例えば:
- Drill は、スキーマフリーのクエリ エンジンです。たとえば、JSON または Parquet ログ ファイルのディレクトリ (ローカル ボックス、NFS 共有、S3、HDFS、MapR-FS など) を指定して、クエリを実行できます。データの読み込み、スキーマの作成と管理、またはデータの前処理を行う必要はありません。
- Drill は内部で JSON ドキュメント モデルを使用しており、あらゆる構造のデータをクエリできます。現代のデータの多くは複雑です。つまり、レコードにはネストされた構造と配列を含めることができ、フィールド名は実際にはタイムスタンプや Web ページの URL などの値をエンコードする場合があります。Drill を使用すると、データを事前にフラット化する必要なく、通常の BI ツールでそのようなデータをシームレスに操作できます。
- Drill は、Hadoop、NoSQL データベース (MongoDB、HBase)、クラウド ストレージなど、さまざまな非リレーショナル データストアで動作します。追加のデータストアが追加されます。
Drill 1.0 がリリースされたばかりです (2015 年 5 月 19 日)。ラップトップに簡単にダウンロードして、インフラストラクチャ (Hadoop、NoSQL など) なしで再生できます。
于 2015-05-28T04:08:49.463 に答える
1
Apache Spark-SQL:
- データにアクセスして処理するには、コード (Scala、Java、または Python) を記述する必要があります。
- SQL クエリは、データフレームに対して実行できます。
- 実行は分散方式 (クラスター) で行うことができます。
- ほとんどすべてのデータ ストレージには、Spark ドライバーまたはコネクタがあります。
- 大規模な並列コンピューティング/データ分析に使用されます。
- ストリーム処理をサポートします。
- より大きなサポート コミュニティがあります。
アパッチドリル:
- コードを記述する必要はありません。Drill はデータ ソースを探索し、独自のデータ カタログを作成します。
- より使いやすく、SQL だけです。
- 実行は分散方式 (クラスター) で行うことができます。
- MongoDB、Parquet ファイル、MySQL、任意の JDBC データベースなど、多くのデータ ソースからデータを読み取るために使用できます。
- アドホック データ探索に使用されます。
- ストリーム処理には対応していません。
- 小規模なサポート コミュニティがあります。
于 2020-01-30T14:37:53.590 に答える