google-app-engine - Google Datastore MultiQueryBuilder を使用してすべての種類のエンティティを読み込むにはどうすればよいですか?

Question

テーブル内のすべてのエンティティを一括読み込みする必要があります。(高速オンデマンドグラフトラバーサルアルゴリズムのために、必要に応じてロードするのではなく、メモリ内に配置する必要があります。)

読み込み速度を上げるために、これを並列化する必要があります。したがって、複数のクエリを並列スレッドで実行し、それぞれが約をプルしたいと考えています。データベースからの 800 エンティティ。

QuerySplitterはこの目的を果たしますが、フレキシブル環境で実行しているため、クライアントライブラリではなく Appengine SDK を使用しています。

MapReduce について言及されていますが、これは単純なデータのメモリへのロードを目的としたものではありません。Memcache は多少関係がありますが、高速アクセスのためには、これらすべてのオブジェクトが、自分のアプリの JVM の RAM にある密集したネットワークに必要です。

MultiQueryBuilderがこれを行う可能性があります。クエリの一部を並行して実行する際の並列性を提供します。

これら 3 つのアプローチのいずれを使用するか、または他のアプローチを使用するかに関係なく、最も困難な部分は、テーブル (Kind) を 800 程度のエンティティのチャンクに大まかに分割するフィルターまたはその他の形式のスピットを定義することです。「1 から 800 までのオブジェクト」、「801 から 1600 まで、...」というフィルターを作成しますが、それが非現実的であることはわかっています。それで、どうやってそれをするのですか？

score 1 · Accepted Answer

エンティティをランダムなグループに分割することで、同様の問題を解決しました。

各データストアエンティティに float プロパティを追加し、エンティティを保存するたびに 0 ～ 1 の乱数を割り当てました。次に、Nスレッドを起動してさまざまなデータストアエンティティを処理するときに、エンティティのクエリに対して各スレッドを処理させました1/N。たとえば、スレッド 0 は、との間0に設定されたランダムプロパティを持つすべてのエンティティを処理し1/Nます。1/Nスレッド 2 は、との間のランダムプロパティを持つすべてのエンティティを処理します2/N。

これの欠点は、完全に確定的ではなく、データストアエンティティに新しいプロパティを追加する必要があることです。利点は、数百万のエンティティとスレッドに簡単にスケーリングできることであり、通常、スレッド間で作業を均等に分散できます。

google-app-engine - Google Datastore MultiQueryBuilder を使用してすべての種類のエンティティを読み込むにはどうすればよいですか?

1 に答える 1

Related

Reference