fastafrmatedファイルを解析するコードを見つけました。各シーケンスにA、T、Gなどがいくつあるかを数える必要があります。次に例を示します。
>gi|7290019|gb|AAF45486.1| (AE003417) EG:BACR37P7.1 gene product [Drosophila melanogaster]
MRMRGRRLLPIIL
このシーケンスでは、次のようになります。
M - 2
R - 4
G - 1
L - 3
I - 2
P - 1
コードは非常に単純です。
def FASTA(filename):
try:
f = file(filename)
except IOError:
print "The file, %s, does not exist" % filename
return
order = []
sequences = {}
for line in f:
if line.startswith('>'):
name = line[1:].rstrip('\n')
name = name.replace('_', ' ')
order.append(name)
sequences[name] = ''
else:
sequences[name] += line.rstrip('\n').rstrip('*')
print "%d sequences found" % len(order)
return order, sequences
x, y = FASTA("drosoph_b.fasta")
しかし、どうすればそれらのアミノ酸を数えることができますか?私はBioPythonを使いたくありません、例えば、これを行う方法を知りたいcount
です...