“bigtable”の関連問題_Stack Overflow日本語サイト

0 投票する

2 に答える

1572 参照

python - CPU を消費せずに、App Engine で大量の db.delete を実行する

Google App Engine には適切なサイズのデータベース (50,000 を超えるエンティティ) があり、そこから古いデータを消去したいと考えています。計画は、不要になったエンティティを繰り返し処理する遅延タスクを作成し、それらをバッチで削除することでした。

厄介なことの 1 つは、エンティティには削除したい子エンティティもあるということです。これは問題ありません。これらのエンティティのデータストアをクエリし、親と同時にドロップします。

ParentKind一度に 100 個のエンティティを削除するように制限しました。それぞれParentKindに合計で約 40 の子ChildKindAとChildKindBエンティティがあり、おそらく 4000 のエンティティでした。

これは当時は合理的と思われましたが、テストとして 1 つのバッチを実行したところ、結果のクエリの実行に 9 秒かかり、データストアへのアクセスに課金対象の CPU 時間で1933秒が費やされました。

これはかなり厳しいように思えます -- エンティティごとに 0.5 秒の請求が可能です! -- しかし、何が間違っているのか完全にはわかりません。それは単にバッチのサイズですか？祖先クエリは特に遅いですか? それとも、削除 (および実際にはすべてのデータストアアクセス) が単に糖蜜のように遅いのでしょうか?

アップデート

クエリをに変更しました。keys_onlyこれにより、1 つのバッチの実行時間が 4.5 秒に短縮されましたが、それでも CPU 時間は約 1900 秒かかりました。

次に、Appstats をアプリにインストールし (ありがとう、kevpie)、より小さいサイズのバッチを実行しました。10 個の親エンティティで、合計で最大 450 個のエンティティになります。更新されたコードは次のとおりです。

Appstats の結果:

Delete呼び出しは、操作の中で最もコストのかかる部分です。

これを回避する方法はありますか？Nick Johnson 氏は、現時点では一括削除ハンドラを使用するのが最速の削除方法であると述べましたが、理想的には、同じ種類のすべてのbar = fooエンティティを削除するのではなく、最初のクエリに一致し、その子であるエンティティだけを削除したいと考えています。

2010-12-15T08:42:44.300

0 投票する

2 に答える

546 参照

google-app-engine - Google App Engine データストアで 1 秒あたり 5 回以上の書き込みを行うトランザクションカウンタ

1000 人以上の同時プレイヤーが予想されるゲームのトーナメントバージョンを開発しています。トーナメントが始まると、プレイヤーは非常に速く (おそらく 1 秒あたり 5 人以上) 脱落しますが、トーナメントが進行するにつれてプロセスは遅くなります。プレーヤーがトーナメントからいつ敗退するかに応じて、一定量のポイントが授与されます。たとえば、最初にドロップしたプレーヤーは何も得られませんが、500 位のプレーヤーは 1 ポイントを受け取り、1 位の勝者は 200 ポイントを受け取ります。ここで、プレイヤーが排除された直後にポイントを授与して表示したいと思います。

問題は、プレーヤーが排除された後に新しい行をデータストアにプッシュするときに、行エンティティを別のエンティティグループに配置する必要があるため、1 つのエンティティに対して 1 秒あたり 1 ～ 5 回の書き込みというゲーデータストアの制限に達しないことです。グループ。また、脱落したすべてのプレイヤーの賞金を正しく決定できるように、一貫して行数を読み書きできる必要があります。

これをサポートするためにデータモデルを実装する最良の方法は何でしょうか?

google-app-engine google-cloud-datastore bigtable

2010-12-19T16:55:40.977

0 投票する

1 に答える

738 参照

google-app-engine - web2py は google app engine と同等のものに似ています

アプリエンジンの BigTable データベースを使用して、、、演算子に like似containsたクエリを生成する方法はありますか?startswith

次のようなことができるように：

web2py のアプリエンジンで。

google-app-engine web2py bigtable

2010-12-22T18:05:10.923

0 投票する

3 に答える

200 参照

mysql - mysqlストアドルーチンとmysql-alternative?

合計で約 150,000 レコード (名前) の mysql データベースを使用しています。「names」フィールドでの検索は、php のオートコンプリート機能を介して行われます。テーブルにインデックスを付けましたが、検索が少し遅いように感じます (ほぼ瞬時に応答する Google Finance のようなものに対して、数秒かかります)。私たちは 2 つの可能性を考え出しましたが、より多くの洞察を得たかったのです。

検索を高速化するために大量の (数千またはそれ以上の) ストアドプロシージャを作成できますか? それとも、それほど多くのストアドプロシージャを作成するとデータベースの速度が低下しますか?
「select」ステートメントのmysqlに代わるより高速な方法はありますか（行の挿入と更新の速度はそれほど重要ではないため、必要に応じて犠牲にすることができます）。JOIN ステートメントをサポートしていない BigTable などについて漠然と聞いたことがあります....私たちが行う他のクエリのいくつかには JOIN ステートメントが必要です。

どうも

mysql database oracle cassandra bigtable

2011-01-18T00:45:55.530

0 投票する

1 に答える

75 参照

caching - すべてのユーザーグループキーを取得するためのIN演算子を使用したBigTableクエリ

将来のソーシャルアプリケーションでの権限にはほとんど問題がありません。

プラットフォームはdb（GoogleのBigTable）を非関連にします。

私のアプリケーションでは、各ユーザーにグループがあります（たとえば、友達、共同編集者、家族など）。グループには（Facebookのように）友達がいます。また、このグループに対してのみ一部のコンテンツ（ニュース、短いテキストなど）を公開できます。グループにユーザーがいる場合、それは私の友達です。Facebookと同様ですが、より多くのグループがあります。

私の考えでは、各ユーザーは1つのページですべての友達の最後のコンテンツをすべて（自分自身で「フィード」して）見ることができます（Facebookのトップニュースのように）。しかし、単純なクエリの作成に問題があります。

例えば：

これはうまくいきますが、サブクエリがあり、リストの制限は30アイテムです。もう1つの方法は、コンテンツの強力なキャッシュです。

誰かが何か考えを持っていますか？または任意の学習資料、例...

caching permissions nosql bigtable

2011-01-20T19:58:55.473

0 投票する

1 に答える

387 参照

cassandra - SSTables または Hfiles は 1TB を超えてマージされますか?

メジャーコンパクションでは、リージョンサーバー (Hbase) からのすべての sstable とタブレットサーバー (Cassandra) からのすべての SSTable を大きなものにマージします。

ピリオドが来たら、平均的な SSTables (1 TB を超える合計スペース) が 1 つにマージされますか? SSTable または HFile には、いくつかの部分に分割するいくつかの範囲境界があります。マージ操作で「すべてのサーバーを書き換える」ことがないようにするためですか?

私の質問は、このリンクの「圧縮」セクションに関連しています http://wiki.apache.org/cassandra/MemtableSSTable

cassandra hbase bigtable

user334596

2011-01-23T00:59:09.477

0 投票する

1 に答える

976 参照

python - Google App Engine での ListProperty と StringListProperty の比較

整数 (ユーザー ID) のリストを保存したいのですが、それらを文字列にして StringListProperty を使用する必要がありますか、それとも単に ListProperty を使用する必要がありますか? ）。

特定の数に達するまでユーザーをリストに追加する必要があります。その後、それらのユーザーのグループインスタンスを (別のエンティティグループに) 作成します。

python google-app-engine list bigtable datastore

2011-01-25T18:32:05.590

0 投票する

1 に答える

420 参照

google-app-engine - Google App Engine とデータベースの「ビュー」

かなり複雑なデータモデルを持つ GAE 用のアプリケーションを開発しています。

私の理解では、noSQL データベース、特に GAE を使用して複雑なデータモデルを処理する良い方法は、非正規化されたデータの「ビュー」を使用することです。ブラウザクライアントが一部のデータを更新したい場合、サーバーは一部のコアデータに書き込みを実行し、クライアントが続行できるように「200 OK」を返し、タスクキューを使用して、書き込まれたデータが影響した可能性のある「ビュー」を更新します.

次に、クライアントが通常は SQL 結合を必要とするいくつかのオブジェクトに対してクエリを実行する場合はいつでも、代わりに、必要なすべてのデータが同じ「行」(またはアプリエンジンの場合はエンティティ) にある「ビュー」をクエリできます。）。

私が抱えている問題は、このビューの作成と更新はすべて、手動で行うべきものではなく、ライブラリが行うべきことのように見えることです。データのいくつかのビューを指定し、それらが適切に作成および処理されることを期待できる、GAE で動作するツールはありますか? 私はCouchDBがこれを行うと信じています...

google-app-engine views google-cloud-datastore bigtable denormalization

2011-01-30T00:12:34.433

0 投票する

1 に答える

258 参照

google-app-engine - 非リレーショナル DBMS (AppEngine の BigTable) では、マスメッセージングタイプのシステムのエンティティをどのように設定すればよいですか?

たとえば、多くのユーザーがいるとします。ユーザーが何かメッセージを送信するたびに、他のユーザーのリストにメッセージを送ることができます (一括メール送信と同様)。ただし、ストレージスペースを節約するために、メッセージを 1 回保存したいだけです。そのため、メッセージ受信者の 1 人がメールボックスを開くと、そこでそのメッセージを照会する必要があります。メッセージングシステムのエンティティ (テーブル) の設定に関して、より効率的なのはどれですか? 注意: 非 RDBMS では、結合クエリは許可されていません。これはもっともらしい設定ですか、どうすればより効率的にすることができますか (1):

または、次の戦略 (2) を使用する必要があります。

どちらの戦略がより効率的だと思われますか? つまり、単純に DBMS を反復処理するよりも、配列リストを反復処理する方が遅いですか?

どんなコメントでも大歓迎です。

*注: メッセージは任意に長くなる可能性があるため、同じメッセージの複数のコピーを保存したくありません。

ありがとうございました。

google-app-engine performance message bigtable non-relational-database

2011-02-04T19:24:36.887

0 投票する

3 に答える

6049 参照

download - MySQL のような大きなテーブルを PC にダウンロードするにはどうすればよいですか?

MySQL のような大きなテーブルを PC にダウンロードするにはどうすればよいですか?

download bigtable

2011-02-11T03:32:43.163

問題タブ [bigtable]

アップデート

Reference