入力された正確な順序(ゲノム配列)を維持する必要のあるデータがあり、パターンを見つけるために、それぞれ約18のメンバーからなる約10億のノードを検索したいと思います。
明らかに、この大規模なデータセットでは速度が問題になります。検索の基本は重複を見つけて分離することであるため、現在、個別のキーとして使用できるデータはありません。
比較的短時間でデータを調べてこれらのパターンと類似点を見つけることができるアルゴリズムを探しています。比較のために正規表現を計算できますが、より高速な検索を取得する方法がわかりません。 O(n)より。
どんな助けでもいただければ幸いです。
ありがとう