hadoop - Apache Drill と Spark

Question

私は Apache Spark と Spark-SQL の経験があります。最近、Apache Drill プロジェクトを見つけました。それらの最も重要な利点/違いは何ですか? 私はすでに Fast Hadoop Analytics (Cloudera Impala vs Spark/Shark vs Apache Drill)を読んだことがありますが、このトピックはまだよくわかりません。

score 22 · Accepted Answer

以下は、SQL テクノロジの一部について説明している記事です。

Drill は、ユーザーエクスペリエンスとアーキテクチャの両方で根本的に異なります。例えば：

Drill は、スキーマフリーのクエリエンジンです。たとえば、JSON または Parquet ログファイルのディレクトリ (ローカルボックス、NFS 共有、S3、HDFS、MapR-FS など) を指定して、クエリを実行できます。データの読み込み、スキーマの作成と管理、またはデータの前処理を行う必要はありません。
Drill は内部で JSON ドキュメントモデルを使用しており、あらゆる構造のデータをクエリできます。現代のデータの多くは複雑です。つまり、レコードにはネストされた構造と配列を含めることができ、フィールド名は実際にはタイムスタンプや Web ページの URL などの値をエンコードする場合があります。Drill を使用すると、データを事前にフラット化する必要なく、通常の BI ツールでそのようなデータをシームレスに操作できます。
Drill は、Hadoop、NoSQL データベース (MongoDB、HBase)、クラウドストレージなど、さまざまな非リレーショナルデータストアで動作します。追加のデータストアが追加されます。

Drill 1.0 がリリースされたばかりです (2015 年 5 月 19 日)。ラップトップに簡単にダウンロードして、インフラストラクチャ (Hadoop、NoSQL など) なしで再生できます。

score 1 · Accepted Answer

Apache Spark-SQL:

データにアクセスして処理するには、コード (Scala、Java、または Python) を記述する必要があります。
SQL クエリは、データフレームに対して実行できます。
実行は分散方式 (クラスター) で行うことができます。
ほとんどすべてのデータストレージには、Spark ドライバーまたはコネクタがあります。
大規模な並列コンピューティング/データ分析に使用されます。
ストリーム処理をサポートします。
より大きなサポートコミュニティがあります。

アパッチドリル:

コードを記述する必要はありません。Drill はデータソースを探索し、独自のデータカタログを作成します。
より使いやすく、SQL だけです。
実行は分散方式 (クラスター) で行うことができます。
MongoDB、Parquet ファイル、MySQL、任意の JDBC データベースなど、多くのデータソースからデータを読み取るために使用できます。
アドホックデータ探索に使用されます。
ストリーム処理には対応していません。
小規模なサポートコミュニティがあります。

hadoop - Apache Drill と Spark

3 に答える 3

Related

Reference