“google-bigquery”の関連問題_Stack Overflow日本語サイト

0 投票する

5 に答える

428 参照

database - クラウドでの MapReduce

Amazon MapReduce を除いて、大量のデータを処理するために他にどのようなオプションが必要ですか?

2010-06-05T19:14:11.013

0 投票する

1 に答える

294 参照

google-app-engine - 大量のデータを分析およびクエリする方法

する必要がある：

1. http ログの大きなファイルを分析する

mapreduce を使用することを考えていますが、どこにホストすればよいかわかりません。App Engine Mapper または EC2+MapReduce を使用するか、それとも単に VPS で使用するか?
MapReduce 以外の提案はありますか?

2.結果の保存とクエリ

すべてのデータを分析したら、それを保存して、可能な限り最良の方法でユーザーに提示する必要があります。結果はどのように保存すればよいですか？MongoDB はこれに適したソリューションですか?

ありがとう。

よろしく。

google-app-engine amazon-s3 amazon-ec2 mapreduce google-bigquery

2011-01-15T23:28:44.670

0 投票する

3 に答える

2595 参照

google-bigquery - Google BigQueryにはスキーマが必要ですか？

ログの保存にbigqueryを使用したい。Mysqlや他のRDBMSのような固定スキーマが必要ですか、それともスキーマがないnosqlのようなものですか？

google-bigquery

2011-06-21T05:55:44.710

0 投票する

3 に答える

37577 参照

hadoop - Google の Dremel とは何ですか? Mapreduce との違いは何ですか?

Google の Dremel については、こちらで説明しています。Dremel と Mapreduce の違いは何ですか?

hadoop mapreduce google-bigquery abstraction

2011-07-07T08:03:39.520

0 投票する

2 に答える

1693 参照

r - SimpleDBまたはBigQueryでRを使用するか、SimpleDBでPHPを使用することをお勧めします

私は現在、Amazonのような製品の推奨事項を生成するシステムに取り組んでいます：「これを購入した人はこれも購入しました。」

現在のシナリオ：

クライアントのGoogleAnalyticsデータを抽出し、データベースに挿入します。
クライアントのWebサイトでは、製品ページのロード時にAPI呼び出しが行われ、表示されている製品の推奨事項を取得します。
APIはリクエストとして製品IDを受信すると、データベースを検索し、（アソシエーションルールを使用して）推奨される製品IDを取得し、それらを応答として送信します。
これらの製品IDのリストは、クライアント側で製品の詳細（画像、価格など）を取得するために処理され、Webサイトに表示されます。
現在、AmazonEC2でgapiパッケージとRESTapiストレージを備えたPHPとMYSQLを使用しています。

私の質問は次のとおりです。さて、次の中から選択する必要がある場合は、上記の概念を実装するための最良の選択になります。

SimpleDBまたはBIGQueryを使用したPHP。
BIGQueryを使用したR言語。
RHIPE-（Rおよびhadoop）とSimpleDB。
ApacheMahout。

助けてください！

r hadoop amazon-simpledb mahout google-bigquery

2011-08-19T12:33:48.640

0 投票する

5 に答える

1352 参照

java - GAE データストアから大量の (>2000) エンティティを 1 秒以内に取得する方法は?

大量のデータセット (>2000 エンティティ) をロードし、このセットに対して計算を実行する必要があるアプリケーションの一部があります。各エンティティのサイズは約 5 KB です。

最初の単純な実装では、ボトルネックはすべてのエンティティをロードするのに必要な時間 ( 2000 個のエンティティで約 40 秒) であると思われますが、計算自体を実行するのに必要な時間は非常に短いです (<1 秒)。

エンティティの取得を高速化するために、いくつかの戦略を試しました。

取得リクエストを複数の並列インスタンスに分割し、結果をマージする: 2000 個のエンティティに対して約 20 秒。

常駐バックエンドに配置されたインメモリキャッシュにエンティティを格納する: 2000 エンティティの場合、約 5 秒。

計算は動的に計算する必要があるため、書き込み時に事前計算を行って結果を保存することは、このケースでは機能しません。

1 秒弱で最大 2000 個のエンティティを取得できることを期待しています。これはGAE/Jの能力の範囲内ですか？この種の検索のために実装できる可能性のある他の戦略はありますか?

更新: ユースケースと並列化の結果に関する追加情報を提供します。

データストアには同じ種類のエンティティが 200.000 を超えており、操作は取得のみです。

10 個の並列ワーカーインスタンスで実験を行い、得られた典型的な結果をこのペーストビンで確認できます。エンティティをマスターインスタンスに戻すときに必要なシリアライゼーションとデシリアライゼーションがパフォーマンスを妨げているようです。

更新 2: 私たちがやろうとしていることの例を挙げます:

良い投資かどうかを知るために分析する必要がある StockDerivative エンティティがあるとします。

実行される分析には、外部 (ユーザーの好み、市況など) と内部 (エンティティのプロパティなど) の両方の多くの要因に基づく複雑な計算が必要であり、単一の「投資スコア」値が出力されます。

ユーザーは、その投資スコアに基づいてデリバティブをソートするように要求し、最高スコアの N 個のデリバティブを提示するように要求することができます。

java performance google-app-engine google-cloud-datastore google-bigquery

2012-01-05T14:14:06.070

0 投票する

1 に答える

210 参照

google-visualization - 分析用にホストされたバックエンドビジネスデータストレージを探している

ビジネスアプリケーションのライセンスを取得するためのシンプルなホスト型データストアが必要です。以下の機能が欲しいです。

CRUD 操作のための REST のようなアクセス (主にレコードの追加)
プライベートで認証済み
Google Visualization Api のようなフロントエンドのグラフ作成クライアントと簡単に統合できます
使いやすく、セットアップも簡単

どうでしょう: * Google フュージョンテーブル * Google クラウドサービス * Google BigQuery * Google Cloud SQL

またはその他の Google 以外のサービス。しかし、私は Google Charts とそのバックエンドデータサービスの 1 つとの間のよりクリーンな統合を想像しています。

長所、短所、アドバイス？

google-visualization google-fusion-tables google-bigquery google-cloud-storage

2012-03-19T18:41:51.793

0 投票する

3 に答える

2601 参照

google-bigquery - ログ分析に BigQuery を使用する

BigQuery でログ分析をしようとしています。具体的には、ログデータを BigQuery に送信する appengine アプリと JavaScript クライアントがあります。bigquery では、完全なログテキストを 1 つの列に保存しますが、重要なフィールドを他の列に抽出します。次に、それらの列に対してアドホッククエリを実行できるようにしたいと考えています。

2 つの質問:

1) このユースケースで BigQuery は特に優れていますか、それとも特に劣っていますか? 2) リボルビングログを設定するにはどうすればよいですか? つまり、最後の N 個のログまたは最後の X GB のログデータのみを保存したいと考えています。削除はサポートされていないようです。

google-bigquery

2012-05-01T23:19:31.633

0 投票する

5 に答える

4597 参照

google-bigquery - BigQuery によるリアルタイム分析

BigQuery でリアルタイム分析を実行する方法はありますか? ジョブを開始してオフラインモードでデータをロードする CSV アップロードオプションを使用しました。このデータは、ロードが完了すると分析できます。しかし、BigQuery に関する発表では、リアルタイム分析に BigQuery を使用することが言及されています。これはどのように達成できますか？リアルタイム分析のためにトリクルモードで Google Cloud データベースから BigQuery にデータを追加（更新なし）できますか？

補足として、BigQuery CSV データの読み込みは、ローカル PC で 10 GB のデータファイルを使用して実行している LucidDB および InfiniDB よりも約 1 桁遅いことに気付きました。BigQuery ジョブが完了するまでに 34 分かかりましたが、InfiniDB と LucidDB では 5 分かかりました。クエリの実行時間 (単純な集計の場合) は、InfiniDB と比較して BigQuery では 2 倍遅くなります (6 秒対、約 3000 万件以上のレコードをロードした 10 GB のファイルに対して 3 秒) が、LucidDB よりは優れています。

google-bigquery

2012-05-02T13:28:42.713

0 投票する

2 に答える

931 参照

ubuntu - BigQueryのインストール

ubuntuに大きなクエリをインストールしようとしましたが、次のエラーが発生しました：

この問題を修正するにはどうすればよいですか？

アップデート：

ここにあるgoogleBigQueryツールパッケージをインストールしようとしています...

http://code.google.com/p/google-bigquery-tools/downloads/list

ubuntu google-bigquery

2012-05-03T04:36:47.920

問題タブ [google-bigquery]

1. http ログの大きなファイルを分析する

2.結果の保存とクエリ

Reference