問題タブ [google-bigquery]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
5 に答える
428 参照

database - クラウドでの MapReduce

Amazon MapReduce を除いて、大量のデータを処理するために他にどのようなオプションが必要ですか?

0 投票する
1 に答える
294 参照

google-app-engine - 大量のデータを分析およびクエリする方法

する必要がある:

1. http ログの大きなファイルを分析する

  • mapreduce を使用することを考えていますが、どこにホストすればよいかわかりません。App Engine Mapper または EC2+MapReduce を使用するか、それとも単に VPS で使用するか?
  • MapReduce 以外の提案はありますか?

2.結果の保存とクエリ

  • すべてのデータを分析したら、それを保存して、可能な限り最良の方法でユーザーに提示する必要があります。結果はどのように保存すればよいですか?MongoDB はこれに適したソリューションですか?

ありがとう。

よろしく。

0 投票する
3 に答える
2595 参照

google-bigquery - Google BigQueryにはスキーマが必要ですか?

ログの保存にbigqueryを使用したい。Mysqlや他のRDBMSのような固定スキーマが必要ですか、それともスキーマがないnosqlのようなものですか?

0 投票する
3 に答える
37577 参照

hadoop - Google の Dremel とは何ですか? Mapreduce との違いは何ですか?

Google の Dremel については、こちらで説明しています。Dremel と Mapreduce の違いは何ですか?

0 投票する
2 に答える
1693 参照

r - SimpleDBまたはBigQueryでRを使用するか、SimpleDBでPHPを使用することをお勧めします

私は現在、Amazonのような製品の推奨事項を生成するシステムに取り組んでいます:「これを購入した人はこれも購入しました。」

現在のシナリオ:

  • クライアントのGoogleAnalyticsデータを抽出し、データベースに挿入します。

  • クライアントのWebサイトでは、製品ページのロード時にAPI呼び出しが行われ、表示されている製品の推奨事項を取得します。

  • APIはリクエストとして製品IDを受信すると、データベースを検索し、(アソシエーションルールを使用して)推奨される製品IDを取得し、それらを応答として送信します。

  • これらの製品IDのリストは、クライアント側で製品の詳細(画像、価格など)を取得するために処理され、Webサイトに表示されます。

  • 現在、AmazonEC2でgapiパッケージとRESTapiストレージを備えたPHPとMYSQLを使用しています。

私の質問は次のとおりです。 さて、次の中から選択する必要がある場合は、上記の概念を実装するための最良の選択になります。

  • SimpleDBまたはBIGQueryを使用したPHP。

  • BIGQueryを使用したR言語。

  • RHIPE-(Rおよびhadoop)とSimpleDB。

  • ApacheMahout。

助けてください!

0 投票する
5 に答える
1352 参照

java - GAE データストアから大量の (>2000) エンティティを 1 秒以内に取得する方法は?

大量のデータ セット (>2000 エンティティ) をロードし、このセットに対して計算を実行する必要があるアプリケーションの一部があります。各エンティティのサイズは約 5 KB です。

最初の単純な実装では、ボトルネックはすべてのエンティティをロードするのに必要な時間 ( 2000 個のエンティティで約 40 秒) であると思われますが、計算自体を実行するのに必要な時間は非常に短いです (<1 秒)。

エンティティの取得を高速化するために、いくつかの戦略を試しました。

  • 取得リクエストを複数の並列インスタンスに分割し、結果をマージする: 2000 個のエンティティに対して約 20 秒
  • 常駐バックエンドに配置されたインメモリ キャッシュにエンティティを格納する: 2000 エンティティの場合、約 5 秒

計算は動的に計算する必要があるため、書き込み時に事前計算を行って結果を保存することは、このケースでは機能しません。

1 秒弱で最大 2000 個のエンティティを取得できることを期待しています。これはGAE/Jの能力の範囲内ですか?この種の検索のために実装できる可能性のある他の戦略はありますか?

更新: ユース ケースと並列化の結果に関する追加情報を提供します。

  • データストアには同じ種類のエンティティが 200.000 を超えており、操作は取得のみです。
  • 10 個の並列ワーカー インスタンスで実験を行い、得られた典型的な結果をこのペーストビンで確認できます。エンティティをマスター インスタンスに戻すときに必要なシリアライゼーションとデシリアライゼーションがパフォーマンスを妨げているようです。

更新 2: 私たちがやろうとしていることの例を挙げます:

  1. 良い投資かどうかを知るために分析する必要がある StockDerivative エンティティがあるとします。
  2. 実行される分析には、外部 (ユーザーの好み、市況など) と内部 (エンティティのプロパティなど) の両方の多くの要因に基づく複雑な計算が必要であり、単一の「投資スコア」値が出力されます。
  3. ユーザーは、その投資スコアに基づいてデリバティブをソートするように要求し、最高スコアの N 個のデリバティブを提示するように要求することができます。
0 投票する
1 に答える
210 参照

google-visualization - 分析用にホストされたバックエンド ビジネス データ ストレージを探している

ビジネス アプリケーションのライセンスを取得するためのシンプルなホスト型データ ストアが必要です。以下の機能が欲しいです。

  • CRUD 操作のための REST のようなアクセス (主にレコードの追加)
  • プライベートで認証済み
  • Google Visualization Api のようなフロント エンドのグラフ作成クライアントと簡単に統合できます
  • 使いやすく、セットアップも簡単

どうでしょう: * Google フュージョン テーブル * Google クラウド サービス * Google BigQuery * Google Cloud SQL

またはその他の Google 以外のサービス。しかし、私は Google Charts とそのバックエンド データ サービスの 1 つとの間のよりクリーンな統合を想像しています。

長所、短所、アドバイス?

0 投票する
3 に答える
2601 参照

google-bigquery - ログ分析に BigQuery を使用する

BigQuery でログ分析をしようとしています。具体的には、ログ データを BigQuery に送信する appengine アプリと JavaScript クライアントがあります。bigquery では、完全なログ テキストを 1 つの列に保存しますが、重要なフィールドを他の列に抽出します。次に、それらの列に対してアドホック クエリを実行できるようにしたいと考えています。

2 つの質問:

1) このユースケースで BigQuery は特に優れていますか、それとも特に劣っていますか? 2) リボルビング ログを設定するにはどうすればよいですか? つまり、最後の N 個のログまたは最後の X GB のログ データのみを保存したいと考えています。削除はサポートされていないようです。

0 投票する
5 に答える
4597 参照

google-bigquery - BigQuery によるリアルタイム分析

BigQuery でリアルタイム分析を実行する方法はありますか? ジョブを開始してオフライン モードでデータをロードする CSV アップロード オプションを使用しました。このデータは、ロードが完了すると分析できます。しかし、BigQuery に関する発表では、リアルタイム分析に BigQuery を使用することが言及されています。これはどのように達成できますか?リアルタイム分析のためにトリクル モードで Google Cloud データベースから BigQuery にデータを追加(更新なし)できますか?

補足として、BigQuery CSV データの読み込みは、ローカル PC で 10 GB のデータ ファイルを使用して実行している LucidDB および InfiniDB よりも約 1 桁遅いことに気付きました。BigQuery ジョブが完了するまでに 34 分かかりましたが、InfiniDB と LucidDB では 5 分かかりました。クエリの実行時間 (単純な集計の場合) は、InfiniDB と比較して BigQuery では 2 倍遅くなります (6 秒対、約 3000 万件以上のレコードをロードした 10 GB のファイルに対して 3 秒) が、LucidDB よりは優れています。

0 投票する
2 に答える
931 参照

ubuntu - BigQueryのインストール

ubuntuに大きなクエリをインストールしようとしましたが、次のエラーが発生しました:

この問題を修正するにはどうすればよいですか?

アップデート:

ここにあるgoogleBigQueryツールパッケージをインストールしようとしています...

http://code.google.com/p/google-bigquery-tools/downloads/list