3

Google のビッグ クエリと Azure データ レイク U-SQL の違いまたは長所と短所を理解しようとしています。どちらが良いですか?大きな違いが何であるかを徹底的に検索しましたが、見つけることができませんでした。

4

1 に答える 1

9

ここで、両方のテクノロジーの基本的な違いをいくつか示します。

データ形状

  1. Google ビッグ クエリ- データを json、csv、Avro などの特定の形状に変換するよう求められます。
  2. データ レイク- レイク ストアにあるものは何でもダンプするように求められるだけで、その上で usql クエリを実行できます。

データサイズ

Googleビッグクエリにはファイルサイズの制限があります - https://cloud.google.com/bigquery/loading-data-into-bigquery#quotaはかなり大きな制限ですが

Data Lake - 公式にはファイル サイズに制限がなく、実際にはペタバイトのファイルから始めることができます。

最大の違いはクエリ モデル間ですが、その前に、Azure データ レイク ストア上で HBase ワークロードを実行することもできることを知っておく必要があります。HBase は実際には Google Big Table のオープン ソース実装であり、他にも多くの微妙な違いが見られます。ここhttp://www.larsgeorge.com/2009/11/hbase-vs-bigtable-comparison.html

Google ビッグ クエリ自体はコンパイルされたクエリではありませんが、USQL は SQL のような構文と CLR 機能を組み合わせたものです。USQL クエリは最初にコンパイルされ、次にデータ ストアに対して実行されます。これにより、カスタム関数を記述して使用することができます。 diff 形式のデータを解析または操作するためのクエリ。Azure データ レイク ツールを使用して、USQL クエリの実行計画を視覚化することもできます。ビッグ クエリと USQL はどちらも、理解して操作するのが非常に簡単です。

認証

  1. Google ビッグ クエリには標準の API 認証があり ます https://cloud.google.com/bigquery/authentication
  2. ADL - アプリケーションとユーザーの認証は、Azure AD によって制御されます。

ビッグ データ プラットフォームとしてはどちらも尊重が必要ですが、個人的には Azure Data lake の方がはるかに優れた実装だと思います。これは、spark、storm、hive、pig などのオープン ソース プロジェクトを柔軟に操作できるためです。大きなテーブルでは機能が制限されますグーグルエコシステム。

私のツイッター ハンドル @brijrajsingh までご連絡ください。よろしければ GIDS バンガロールに立ち寄っていただければ、2016 年 4 月 29 日にデータ レイクに関するセッションを配信します。

于 2016-04-26T10:03:40.687 に答える