python - FASTAファイルからのジアミノ酸周波数（Bigram周波数）のカウント

Question

大量のFASTAファイル（分泌ペプチドのさまざまな生物のペプチドーム）がある場合、Python（またはMatlab）を使用して（UNIProtから）FASTAファイルを読み取り、各アミノ酸とアミノ酸の頻度をカウントするにはどうすればよいですか？「ダブル」ペアリング？

（IE-出力には、個々のアミノ酸の％（22文字/文字のうち）とアミノ酸のペアの頻度が含まれている必要があります。

事実上、文字ペアのバイグラム（または実装が簡単な場合はnグラム）の頻度をカウントしたいと思います。

22個のアミノ酸はそれぞれFASTAファイルで一意の文字で表され、各タンパク質の名前の前には>が付いています。（すでに解析されているため、関連する文字のみが残ります）

ファイルのサンプル：

FFKA

FLRN

MTTVSYVTILLTVLVQVLTSDAKATNNKRELSSGLKERSLSDDAPQFWKGRFSRSEEDPQ FWKGRFSDPQFWKGRFSDPQFWKGRFSDPQFWKGRFSDPQFWKGRFSDPQFWKGRFSDPQ FWKGRFSDGTKRENDPQYWKGRFSRSFEDQPDSEAQFWKGRFARTSSGEKREPQYWKGRF SRDSVPGRYGRELQGRFGRELQGRFGREAQGRFGRELQGRFGREFQGRFGREDQGRFGRE DQGRFGREDQGRFGREDQGRFGREDQGRFGREDQGRFGRELQGRFGREFQGRFGREDQGR FGREDQGRFGRELQGRFGREDQGRFGREDQGRFGREDLAKEDQGRFGREDLAKEDQGRFG REDIAEADQGRFGRNAAAAAAAAAAAKKRTIDVIDIESDPKPQTRFRDGKDMQEKRKVEK KDKIEKSDDALAKTS

どうもありがとうございます！

score 3 · Accepted Answer

これはどのように見えますか？

>>> sequence = "LTSDAKAARFSDPQFWKGRFSDPQFWKGRSAAKGRFARTSSGAAEKREPQAAYWKGRF "
>>> occurrenceAA = str(sequence.count("AA"))   # counting occurence of n-aminos
>>> percent_occurrenceAA = float(occurrenceAA)/len(sequence)*100   # calculate percent total of protein
>>> print occurrenceAA, " Double-alanines in your sequence"
4 Double-alanines in your sequence
>>> print round(percent_occurrenceAA,2), " % of total"   # rounding off % to 2 decimal places
6.78  % of total

python - FASTAファイルからのジアミノ酸周波数（Bigram周波数）のカウント

1 に答える 1

Related

Reference