1

私はcassandraとそのデータモデルに比較的慣れていません。染色体上の位置 (染色体:開始-終了) によって記述された大量のデータ セットがあり、24 個の染色体があり、開始と終了は整数です。私がサポートしたいクエリは、他の一連の場所と重複するゲノム内のすべての場所を見つけることです。他にアイデアがなければ、単純な R ツリー ベースの「インデックス作成」スキームを作成できますが、誰かがこの問題に遭遇して解決策を思いついたのではないかと思いました。

4

1 に答える 1

1

2 次元でクエリを実行する必要があるため、これらの種類の地理空間インデックス作成/クエリをサポートする mongodb などの他のデータベースを使用することもできます。境界クエリ を参照してください。

Cassandra では、ジオセル( doc ) またはその他の空間充填曲線を使用するのが最善だと思います

各データの開始と終了をジオハッシュに変換すると、開始が [s1,s2] で終了が [e1,e2] で、ジオハッシュ間のジオセルを検索することで、境界ボックスを検索できるようになります。 (s1, e1) および geohash(s2, e2) は、境界ボックス内の連続した位置を示します

于 2012-06-25T21:49:33.400 に答える