cassandra - 線形空間データの Cassandra データモデル

Question

私はcassandraとそのデータモデルに比較的慣れていません。染色体上の位置 (染色体:開始-終了) によって記述された大量のデータセットがあり、24 個の染色体があり、開始と終了は整数です。私がサポートしたいクエリは、他の一連の場所と重複するゲノム内のすべての場所を見つけることです。他にアイデアがなければ、単純な R ツリーベースの「インデックス作成」スキームを作成できますが、誰かがこの問題に遭遇して解決策を思いついたのではないかと思いました。

score 1 · Accepted Answer

2 次元でクエリを実行する必要があるため、これらの種類の地理空間インデックス作成/クエリをサポートする mongodb などの他のデータベースを使用することもできます。境界クエリを参照してください。

Cassandra では、ジオセル( doc ) またはその他の空間充填曲線を使用するのが最善だと思います

各データの開始と終了をジオハッシュに変換すると、開始が [s1,s2] で終了が [e1,e2] で、ジオハッシュ間のジオセルを検索することで、境界ボックスを検索できるようになります。 (s1, e1) および geohash(s2, e2) は、境界ボックス内の連続した位置を示します

cassandra - 線形空間データの Cassandra データ モデル

1 に答える 1

Related

Reference

cassandra - 線形空間データの Cassandra データモデル