3

BigQuery でリアルタイム分析を実行する方法はありますか? ジョブを開始してオフライン モードでデータをロードする CSV アップロード オプションを使用しました。このデータは、ロードが完了すると分析できます。しかし、BigQuery に関する発表では、リアルタイム分析に BigQuery を使用することが言及されています。これはどのように達成できますか?リアルタイム分析のためにトリクル モードで Google Cloud データベースから BigQuery にデータを追加(更新なし)できますか?

補足として、BigQuery CSV データの読み込みは、ローカル PC で 10 GB のデータ ファイルを使用して実行している LucidDB および InfiniDB よりも約 1 桁遅いことに気付きました。BigQuery ジョブが完了するまでに 34 分かかりましたが、InfiniDB と LucidDB では 5 分かかりました。クエリの実行時間 (単純な集計の場合) は、InfiniDB と比較して BigQuery では 2 倍遅くなります (6 秒対、約 3000 万件以上のレコードをロードした 10 GB のファイルに対して 3 秒) が、LucidDB よりは優れています。

4

5 に答える 5

8

2013 年更新: データを BigQuery にストリーミングし、リアルタイムでクエリできるようになりました。

(ストリーミングしたデータは、クエリのためにすぐに利用できます)

https://developers.google.com/bigquery/streaming-data-into-bigquery

于 2013-10-22T19:21:16.563 に答える
2
  1. 現在、BigQuery で一度に 1 レコードずつデータを直接ストリーミングする方法はありません。サポートされている唯一の取り込み方法は、Google Cloud ストレージから csv ファイルをインポートするか、マルチパート MIME POST リクエストを介して直接インポートすることです。取り込みの割り当ては、1 分あたり 2 回のインポート、1 日あたり 1,000 件のインポート リクエスト、インポート リクエストごとに合計 100 GB のデータです (参照: https://developers.google.com/bigquery/docs/quota-policy )。

  2. 「リアルタイム分析」 (大量のデータに対して非常に迅速なアドホック クエリを実行する機能) と「リアルタイム データ」の継続的な収集 (キー値データストアがサポートに適している) との間には区別が必要です。BigQuery の現在の取り込みメカニズムは、一定の単一レコードの更新をサポートしていませんが、開発者は大規模なデータセットに対して非常に迅速にクエリを実行できます。

  3. Stack Overflow はベンチマークの議論に最適な場所ではありませんが、使用したデータのスキーマを理解していないと、取り込みとクエリの速度をベンチマークするのは難しいと付け加えておきます。10Gb は大量のデータですが、はるかに大きなデータセット (たとえば 10 テラバイト以上) での取り込みとクエリ速度の比較を見るのは興味深いでしょう。

于 2012-05-02T20:50:43.003 に答える
2

リアルタイム分析とデータ ウェアハウジングを分離しておくことをお勧めします。アラートとトリガーを提供するために、データ収集速度を最適化することができます。後者は、大規模な並列検索と集計用です。

相互に排他的であるため、実際には両方の解決策はありません。大規模なデータ集約を迅速に行うには、データのインデックス作成と保存で多くの作業を実行する必要があります。データにすばやくアクセスするために最小限に抑えたい作業です。

于 2016-07-08T16:09:33.010 に答える
0

BiqQuery に大量のデータをインポートする最善の方法は、Google が提供する Python ツールを使用することです。これは、データをアップロードする最も効率的な方法です。これらのツールを使用しています

  1. まず、 gsutilを使用して Google Cloud に生データをアップロードします。
  2. bqを使用して GC から BigQuery にそのデータをインポートする
于 2014-10-03T08:02:30.437 に答える
0

リレーショナル データ ウェアハウスと並行して実行する SQL ベースのリアルタイム分析レイヤーを探している場合は、ストライドと呼ばれるリアルタイム分析 API 製品を最近リリースしました。あなたがお話ししているのは。Stride はオープンソースのストリーミング SQL データベースであるPipelineDBに基づいています。これは PostgreSQL のフォークであり、実際には今年の終わりまでに標準の PostgreSQL 拡張機能になります。

リアルタイム分析レイヤーのストリームに対する継続的な SQL クエリの良い点は、リアルタイムの必要がある場合、実行するクエリが定義上既にわかっているため、継続的なクエリによってリアルタイム データ アーキテクチャが高速化され、大幅に簡素化されることです。不要な粒状データを保存することで発生するコストを削減しながら。

于 2017-10-25T18:14:50.300 に答える