1

複数の遺伝子サンプルを並べた FASTA ファイルがあります。各サンプルの変異数をカウントできるプログラムを開発しようとしています。これを行う最善の方法は何ですか?各遺伝子サンプルを辞書に保存し、何らかの方法で比較しますか?

4

2 に答える 2

1

それらがすでにアラインメント形式になっている場合、同一性と不一致はすでに計算されています。したがって、次のようなものがあります。

Aln1: ACTGGTTGTCCAACCGTAATCGAAG

Aln2: ---GGTTGTCCAATTC---TCGAAG

それぞれを文字列にキャプチャし、単純にそれらを列挙します。このような単純なものが機能します:

mutations=0
for i,j in zip(aln1,aln2):
    if i != j and i != '-' and j != '-':
        mutations+=1

ただし、突然変異などとしてギャップを含めたい場合は、個人的な基準に依存します.

于 2012-09-25T04:16:19.790 に答える
0

FASTA ファイルを読み込んで、各シーケンスを文字列として保存してみてください。「<」行のテキストをキーとして使用して、辞書内のシーケンスを確実に整理できます。遺伝子が変異のない参照配列と同じ長さの場合、[i の場合は i、enumerate(gene) の a != 参照[i] の場合] は、変異の位置のリストを返します。その長さは突然変異の数になります。変異に AA の欠落または追加が含まれる場合、事態はさらに複雑になります。

于 2012-09-25T04:32:34.650 に答える