performance - Datomic はクエリを実行する前にすべてのデータをローカルシステム (ピア) に取得しますか?

Question

「Datomic query run in application process space」 : クエリを実行する必要があるすべてのデータもローカルでなければならないということですか? それぞれのサイズが 1 GB の 2 つのテーブルで結合を実行しているとします。Datomic は最初にクエリを実行するピアに 2 GB のデータを取得しますか?

この質問がドキュメントで既に回答されている場合はすみません。RTFM を使用する必要があります。

score 1 · Accepted Answer

私の理解では、クエリを実行するためにライブインデックスのみが提供されます。インデックスの助けを借りて、関連するデータのみをストレージサービスから取得する必要がありますが、それはローカルキャッシュでまだ利用できない場合に限られます。

score 1 · Accepted Answer

データはピアには存在せず、インデックスのみに存在します。クエリを実行すると、ピアは最適なインデックスを走査して、ストレージサービスから取得する必要があるノードを見つけます。したがって、ピアからストレージサービスへの実際のクエリは、インデックスのクエリで到達した ID のみを要求します。保存したデータの量によっては、インデックスのサイズが非常に大きくなる可能性がありますが、必要なデータのみをストレージサービスから取得します。

Datomic にはテーブル結合の概念がないため、ここで何を意味するのかを正確に知りたいと思っています。異なるパーティションまたはデータベース?

score 0 · Accepted Answer

簡単に言えば、いいえです。

Datomic はいくつかのインデックスを保持しており、それぞれが異なる基準でソートされています。これらの各インデックスはセグメントに分割され、各セグメントには数千のデータ項目 (datom) が含まれます。そうです、データ自体はインデックスに含まれています。

クエリを実行すると、Datomic はクエリの実行に必要なインデックスセグメントのみを取得します。インデックスがソートされると、Datomic は必要なセグメントを特定できます。セグメント単位でインデックスデータを取得するため、関心のないデータが常に含まれますが、これは管理と通信のオーバーヘッドに対処するためのかなり良いトレードオフのようであり、実際にはパフォーマンスが向上します。

すべての典型的なクエリでは、完全なデータベーススキャンは必要ありません。必要な場合、ピアは実際にすべてのデータをローカルシステムにプルする必要があります。ただし、これは、クエリ結果にすべてのデータが含まれていない限り、すべてのデータが一度にメモリ内に存在することを意味するわけではありません。Datomic は、メモリが不足している場合に備えて、一度処理されて不要になったセグメントをガベージコレクションするためです。

そうは言っても、クエリ内の where 句の順序はパフォーマンスにとって重要ですが、順序が取得されるインデックスセグメントの数に影響するかどうかはわかりません。

インデックスの詳細については、Datomic インデックスページと Nikita Prokopov の非公式ガイドの Datomic 内部構造を参照してください。

performance - Datomic はクエリを実行する前にすべてのデータをローカル システム (ピア) に取得しますか?

3 に答える 3

Related

Reference

performance - Datomic はクエリを実行する前にすべてのデータをローカルシステム (ピア) に取得しますか?