次のような fasta ファイルがあります。
>SO_0001
MTKIAILVGTTLGSSEYIADEMQAQLTPLGHEVHTFLHPTLDELKPYPLWILVSSTHGAGDLPDNLQPFC
KELLLNTPDLTQVKFALCAIGDSSYDTFCQGPEKLIEALEYSGAKAVVDKIQIDVQQDPVPEDPALAWLA
QWQDQI
>SO_0002
MTTPVDAPKWPRQIPYIIASEACERFSFYGMRNILTPFLMTALLLSIPEELRGAVAKDVFHSFVIGVYFF
PLLGGWIADRFFGKYNTILWLSLIYCVGHAFLAIFEHSVQGFYTGLFLIALGSGGIKPLVSSFMGDQFDQ
>SO_0003
MTTDTIVAQATAPGRGGVGIIRISGDKATNVAMAVLGHLPKPRYADYCYFKSASGQVIDQGIALFFKGPN
SFTGEDVLELQGHGGQIVLDMLIKRVLEVEGIRIAKPGEFSEQAFMNDKLDLTQAEAIADLIDATSEQAA
KSALQSLQGEFSKEVHELVDQVTHLRLYVEAAIDFPDEEVD
">" に続くものは遺伝子 ID であり、">" 行に続く文字は対応する配列です。ファイルを解析して、各遺伝子 ID のシーケンスに含まれる「C」の数を数えたいと思います。出力ファイルを次のようなタブ区切りファイルにしたいと思います。
SO_0001 Number of C's
SO_0002 Number of C's
SO_0003 Number of C's
等々...
私はPythonを使用しており、遺伝子IDキーを辞書に作成することでこれは簡単だと思っていましたが、タブ区切りのファイルでしかそれを行っておらず、各シーケンスの長さが異なり、遺伝子IDの下にあるため問題が発生しています. どんな提案も素晴らしいでしょう!