1

入力された正確な順序(ゲノム配列)を維持する必要のあるデータがあり、パターンを見つけるために、それぞれ約18のメンバーからなる約10億のノードを検索したいと思います。

明らかに、この大規模なデータセットでは速度が問題になります。検索の基本は重複を見つけて分離することであるため、現在、個別のキーとして使用できるデータはありません。

比較的短時間でデータを調べてこれらのパターンと類似点を見つけることができるアルゴリズムを探しています。比較のために正規表現を計算できますが、より高速な検索を取得する方法がわかりません。 O(n)より。

どんな助けでもいただければ幸いです。

ありがとう

4

1 に答える 1

0
  • おそらくあなたが望むものは「denovoアセンブリ」と呼ばれています
  • アプローチは、N-merを計算し、これらをインデックスで使用することです。
  • 部分的な一致/不一致が必要な場合、nmersはより重要になります
  • 億:= 1E9の場合、Pythonは弱すぎる可能性があります
  • また、18塩基* 2ビット:=それらを列挙するための36ビットの情報にも注意してください。これは一時的に32ビットに近く、64ビットに収まる可能性があります。ハッシュ/ビットフィドリングはオプションかもしれません
于 2012-09-18T09:58:32.720 に答える