Are there any performance benchmark(genuine ones) that compare Stinger vs Impala vs Drill? Also, which is preferred - my use case will be mainly towards ad-hoc interactive queries on top of Hive. Thanks.
2 に答える
サイトhttp://allegro.tech/fast-data-hackathon.htmlにいくつかのパフォーマンス数値があります。
一般に、Drill と Impala は対話型クエリのパフォーマンスで同等であることがわかります。Drill の違いは、メタデータ定義なしでクエリを実行できることと、JSON データを操作する使いやすさにあります。
これらのテストは、0.8/0.9 などの非常に古いバージョンの Drill で行われていることに注意してください (データの局所性についても適切に構成されていません)。現在、Drill は 1.1 で、SQL (ウィンドウ関数など) とパフォーマンスが大幅に改善されています。
このようなベンチマークを行うことはできません。意味がなく、そのようなベンチマークを信頼するべきではありません。
すべてが独自のデータに依存します。JSON ファイルがありますか? ドリルを好む。1 TB を超えるクエリを実行したい、Hive を好むなど。
また、JSON、Kudu、Parquet、ORC などのファイル形式を検討することもできます。
次に最適化です。Hive + Tez は、並列クエリでは優れているように見えますが、単一クエリでは非常に遅くなります。一方、Impala は反対です (MapReduce と MassiveParraelProcessing)。
また、ハードウェア リソース、ディスク SSD の有無なども考慮します。
Apache Drill + JSON ファイルから始めて、Parquet または ORC で Apache Drill を試すことをお勧めします。
助けが必要な場合は、持っているもの (データ + ハードウェア) と必要なものを正確に説明してください。