database - 同じドメインを持つセットの大規模なコレクションに対してサブセットテスト操作を実行する最速の方法

Question

何兆ものセットがどこかに保存されていると仮定します。これらの各セットのドメインは同じです。また、有限で離散的です。したがって、各セットは、比較的短い長さ (例: 1024) のビットフィールド (例: 0000100111...) として格納できます。つまり、ビットフィールドのビット X は、アイテム X (1024 個の可能なアイテムのうち) が特定のセットに含まれているかどうかを示します。

ここで、クエリに効率的に応答するためのストレージ構造とアルゴリズムを考案したいと思います。つまり、データストア内のどのセットが Y をサブセットとして設定したかということです。セット Y 自体はデータストアに存在せず、実行時に指定されます。

これを解決する最も簡単な方法は、セット Y のビットフィールドと、データストア内のすべてのセットのビットフィールドを 1 つずつ AND し、AND の結果が Y のビットフィールドと一致するものを選択することです。

どうすればこれをスピードアップできますか? 格納されているすべてのセットのビットフィールドを AND 処理することなく、このクエリを実行できるツリー構造 (インデックス) またはスマートアルゴリズムはありますか?

セットの大規模なコレクションに対するそのような操作を既にサポートしているデータベースはありますか?

score 4 · Accepted Answer

セットを前処理できる場合、サブセット関係は DAG として表現できます (ポーズセットを記述しているため)。推移的な削減が計算されている場合、最大のセットから開始して Y が現在アクセスされているセットのサブセットではなくなったときに停止する DFS を実行するだけで、すべてのセットのテストを回避できると思います。

score 1 · Accepted Answer

すべてのセットが抽出されるセットのカーディナリティに応じて、要素からそれらを含むセットへの逆インデックスマッピングを構築することが 1 つのオプションになる場合があります。セット Y が与えられた場合、各要素を個別に含むすべてのセットを見つけてそれらの交点を計算することにより、サブセットとして Y を持つすべてのセットを見つけることができます。リストを並べ替えた順序で保存する場合 (たとえば、データベース内のすべてのセットに値 0、1 などの番号を付けることによって)、要素が 1 つも含まれていないと仮定すると、この交差をかなり効率的に計算できるはずです。多くのセット。

score 0 · Accepted Answer

RDBMS が唯一の選択肢である場合は、SQL での DAG のモデリングに関する次の興味深い記事を参照することをお勧めします。

http://www.codeproject.com/KB/database/Modeling_DAGs_on_SQL_DBs.aspx?msg=3051183

Oracle や MSSQL を購入する余裕がない場合は、再帰クエリをサポートする PostgresQL 9 を検討してください。また、かなり長い間クロス結合もサポートされています。

score 0 · Accepted Answer

ビットフィールドのカーディナリティが非常に低いため、答えはノーだと言う傾向があります。

score 0 · Accepted Answer

これは、ボリュームに基づいた従来の RDBMS のストレッチになります。グラフストレージモデルに基づくNeo4jを見たことがありますか?

score 0 · Accepted Answer

一目見ただけで、BDD を思い浮かべます。これは、DAG ソリューションの考え方にある程度沿っています。またはZDD。

database - 同じドメインを持つセットの大規模なコレクションに対してサブセット テスト操作を実行する最速の方法

6 に答える 6

Related

Reference

database - 同じドメインを持つセットの大規模なコレクションに対してサブセットテスト操作を実行する最速の方法