何千もの DNA シーケンスを fasta 形式で含む 1 つのファイルがあり、100 個の個々の短いシーケンス (モチーフ) が大きなファイルで何回出現するかを数える必要があります。これまでのところ、モチーフごとに行ってきましたが、何千もの値の列がないように出力を合計する方法がわかりません。一度にすべてのモチーフを入力してテーブルを戻すのもいいでしょう。私はコーディングに非常に慣れていないので、フィードバックをいただければ幸いです。私は持っている;
from Bio import SeqIO
for i in SeqIO.parse(f,'fasta'):
print i.seq.count('motif')
モチーフがシーケンス名にヒットしないため、これにはBiopythonは本当に必要ないと考えていました。では、行ごとに読み取るイテレータを実行できますか (...)?
私の入力は次のようなものです。
>fasta1
AACTGGGGTCCGTCGATAATATAGGATAG...
>fasta2
GCGCGTGATAGATATGATTAGCGGCGCAA...
等
そのようなcsvファイルのモチーフで;
ACCGAATTTAAA,AAATTATAAAA,GCCCTAAAAAG