さまざまな長さの 3 ~ 1000 の短い (10 ~ 20bp) ヌクレオチド (「ATCG」) リードからコンセンサス シーケンスを作成する方法論が必要です。
簡単な例:
"AGGGGC"
"AGGGC"
"AGGGGGC"
"AGGAGC"
"AGGGGG"
のコンセンサス配列が得られるはずです"AGGGGC"
。
BioPython ライブラリで複数配列アラインメント (MSA) を実行するモジュールを見つけましたが、同じ長さの配列に対してのみです。また、任意の長さの 2 つのシーケンスに対する Smith-Waterman スタイルのアラインメントにも精通しています (実装しています)。これらの要素を組み合わせたライブラリまたは実装 (不等長の MSA) が必要だと思いますが、何時間にもわたって Web やさまざまなドキュメントを精査した後、何も見つかりませんでした。
これを行うパイプラインに組み込むことができる既存のモジュール/ライブラリ (Python を推奨) またはプログラムに関するアドバイスはありますか?
ありがとう!