fasta 形式のアラインメント シーケンスのセットがあります。アラインメントからコンセンサスを得たい。ほとんどのサイトの場合、ベースの 1 つが最大の発生を示しています。2 つ以上の塩基が同数出現するサイトの場合、どの塩基を使用するか。以下に例を示します。
>Seq_1
ATGCGA
>Seq_2
AT-CGT
>Seq_3
AT-CCG
>Seq_4
AT-CCC
>Seq_5
AA-CT-
慣習によると、これはコンセンサスになります
Site : 1 2 3 4 5 6
Consensus : A T G C [G/C] N
しかし、このコンセンサス シーケンスの出力は、他のシーケンスと整列するとエラーになります。では、そのようなシナリオでは何をすべきで、そのようなサイトのコンセンサスを得るにはどうすればよいでしょうか?