4

さまざまな長さの 3 ~ 1000 の短い (10 ~ 20bp) ヌクレオチド (「ATCG」) リードからコンセンサス シーケンスを作成する方法論が必要です。

簡単な例:

"AGGGGC"
"AGGGC"
"AGGGGGC"
"AGGAGC"
"AGGGGG"

のコンセンサス配列が得られるはずです"AGGGGC"

BioPython ライブラリで複数配列アラインメント (MSA) を実行するモジュールを見つけましたが、同じ長さの配列に対してのみです。また、任意の長さの 2 つのシーケンスに対する Smith-Waterman スタイルのアラインメントにも精通しています (実装しています)。これらの要素を組み合わせたライブラリまたは実装 (不等長の MSA) が必要だと思いますが、何時間にもわたって Web やさまざまなドキュメントを精査した後、何も見つかりませんでした。

これを行うパイプラインに組み込むことができる既存のモジュール/ライブラリ (Python を推奨) またはプログラムに関するアドバイスはありますか?

ありがとう!

4

1 に答える 1