hadoop - Performance of Apache Drill

Question

Are there any performance benchmark(genuine ones) that compare Stinger vs Impala vs Drill? Also, which is preferred - my use case will be mainly towards ad-hoc interactive queries on top of Hive. Thanks.

score 5 · Accepted Answer

サイトhttp://allegro.tech/fast-data-hackathon.htmlにいくつかのパフォーマンス数値があります。

一般に、Drill と Impala は対話型クエリのパフォーマンスで同等であることがわかります。Drill の違いは、メタデータ定義なしでクエリを実行できることと、JSON データを操作する使いやすさにあります。

これらのテストは、0.8/0.9 などの非常に古いバージョンの Drill で行われていることに注意してください (データの局所性についても適切に構成されていません)。現在、Drill は 1.1 で、SQL (ウィンドウ関数など) とパフォーマンスが大幅に改善されています。

score 2 · Accepted Answer

このようなベンチマークを行うことはできません。意味がなく、そのようなベンチマークを信頼するべきではありません。

すべてが独自のデータに依存します。JSON ファイルがありますか? ドリルを好む。1 TB を超えるクエリを実行したい、Hive を好むなど。

また、JSON、Kudu、Parquet、ORC などのファイル形式を検討することもできます。

次に最適化です。Hive + Tez は、並列クエリでは優れているように見えますが、単一クエリでは非常に遅くなります。一方、Impala は反対です (MapReduce と MassiveParraelProcessing)。

また、ハードウェアリソース、ディスク SSD の有無なども考慮します。

Apache Drill + JSON ファイルから始めて、Parquet または ORC で Apache Drill を試すことをお勧めします。

助けが必要な場合は、持っているもの (データ + ハードウェア) と必要なものを正確に説明してください。

hadoop - Performance of Apache Drill

2 に答える 2

Related

Reference