python - ソートされていないデータを比較する高速アルゴリズム

Question

入力された正確な順序（ゲノム配列）を維持する必要のあるデータがあり、パターンを見つけるために、それぞれ約18のメンバーからなる約10億のノードを検索したいと思います。

明らかに、この大規模なデータセットでは速度が問題になります。検索の基本は重複を見つけて分離することであるため、現在、個別のキーとして使用できるデータはありません。

比較的短時間でデータを調べてこれらのパターンと類似点を見つけることができるアルゴリズムを探しています。比較のために正規表現を計算できますが、より高速な検索を取得する方法がわかりません。 O（n）より。

どんな助けでもいただければ幸いです。

ありがとう

score 0 · Accepted Answer

おそらくあなたが望むものは「denovoアセンブリ」と呼ばれています
アプローチは、N-merを計算し、これらをインデックスで使用することです。
部分的な一致/不一致が必要な場合、nmersはより重要になります
億：= 1E9の場合、Pythonは弱すぎる可能性があります
また、18塩基* 2ビット：=それらを列挙するための36ビットの情報にも注意してください。これは一時的に32ビットに近く、64ビットに収まる可能性があります。ハッシュ/ビットフィドリングはオプションかもしれません

1 に答える 1