私はDNA配列データを含む非常に長い文字列を持っています。これは通常約500kから5mの長さです。最初のn文字を最初から切り取り、その文字列の最後に追加したいと思います。
そのメソッドを約1時間実行する必要があります。2000のDNA配列-それが私がスピードについて心配している理由です。私は一週間ずっと自分のコンピューターをブロックしたくありません。
ルビーでそれを行う最も効率的な方法は何ですか?
副次的な質問は、メモリ効率です。このタスクはシーケンスごとに1回だけ実行する必要があるので、それほど重要ではありませんが、通常は高速であるからといってメモリが少なくなるわけではありません。私のコンピューターには2ギガのRAMがあります(うまくいけばそれで十分です)。
なぜ私がこれをする必要があるのか興味があるなら:
私がこれをしたい理由は、私のソース資料がDNAの特定のポイントについて分析されるからです。このポイントは、後の分析でより便利にするために、DNAの中間のどこかにある必要があります。このポイントが最後または最初に近い場合は、DNAシーケンス文字列を分割して連結する必要があります。シーケンスは円形であり、ポイントは細菌ゲノムのdnaAのトップBLASTヒットです(NCBIデータベースから)。ほとんどのアノテーションはdnaA遺伝子の位置を開始点として使用する傾向があるため、その遺伝子の周囲の領域で作業する場合、これはかなり厄介です。