0

fasta 形式のアラインメント シーケンスのセットがあります。アラインメントからコンセンサスを得たい。ほとんどのサイトの場合、ベースの 1 つが最大の発生を示しています。2 つ以上の塩基が同数出現するサイトの場合、どの塩基を使用するか。以下に例を示します。

>Seq_1
ATGCGA
>Seq_2
AT-CGT
>Seq_3
AT-CCG
>Seq_4
AT-CCC
>Seq_5
AA-CT-

慣習によると、これはコンセンサスになります

Site      : 1 2 3 4 5     6
Consensus : A T G C [G/C] N

しかし、このコンセンサス シーケンスの出力は、他のシーケンスと整列するとエラーになります。では、そのようなシナリオでは何をすべきで、そのようなサイトのコンセンサスを得るにはどうすればよいでしょうか?

4

2 に答える 2

0

ほとんどのコンセンサスコーラーは、品質を考慮して、最も頻度の高いベースだけでなく、信頼度が最も高いベースも見つけます。

たとえば、古いサンガーの時代には、これを行うアルゴリズムはチャーチル・ウォーターマンのコンセンサス呼び出しアルゴリズムでした。ニーズに合わせて修正されたバージョンもありました (たとえば、あいまいさを呼び出さなかったバージョン)。

于 2013-10-25T19:08:07.557 に答える
0

Biostars でこの質問をすることもできます。

ただし、これらは私の提案です。

1) コンセンサス配列を計算するためのパッケージがいくつかあります。既知のパッケージを使用する価値があるかもしれません。
2) 独自のアルゴリズムを作成する場合は、IUPAC ヌクレオチド コードを参照してください (例:ここ)。慣習に従って、G/C は「S」で表されます。

于 2013-10-24T13:42:22.177 に答える