大量のFASTAファイル(分泌ペプチドのさまざまな生物のペプチドーム)がある場合、Python(またはMatlab)を使用して(UNIProtから)FASTAファイルを読み取り、各アミノ酸とアミノ酸の頻度をカウントするにはどうすればよいですか? 「ダブル」ペアリング?
(IE-出力には、個々のアミノ酸の%(22文字/文字のうち)とアミノ酸のペアの頻度が含まれている必要があります。
事実上、文字ペアのバイグラム(または実装が簡単な場合はnグラム)の頻度をカウントしたいと思います。
22個のアミノ酸はそれぞれFASTAファイルで一意の文字で表され、各タンパク質の名前の前には>が付いています。(すでに解析されているため、関連する文字のみが残ります)
ファイルのサンプル:
FFKA
FLRN
MTTVSYVTILLTVLVQVLTSDAKATNNKRELSSGLKERSLSDDAPQFWKGRFSRSEEDPQ FWKGRFSDPQFWKGRFSDPQFWKGRFSDPQFWKGRFSDPQFWKGRFSDPQFWKGRFSDPQ FWKGRFSDGTKRENDPQYWKGRFSRSFEDQPDSEAQFWKGRFARTSSGEKREPQYWKGRF SRDSVPGRYGRELQGRFGRELQGRFGREAQGRFGRELQGRFGREFQGRFGREDQGRFGRE DQGRFGREDQGRFGREDQGRFGREDQGRFGREDQGRFGRELQGRFGREFQGRFGREDQGR FGREDQGRFGRELQGRFGREDQGRFGREDQGRFGREDLAKEDQGRFGREDLAKEDQGRFG REDIAEADQGRFGRNAAAAAAAAAAAKKRTIDVIDIESDPKPQTRFRDGKDMQEKRKVEK KDKIEKSDDALAKTS
どうもありがとうございます!