私はこのコードを書きました
import sys
file = open(sys.argv[1], 'r')
string = ''
for line in file:
if line.startswith(">"):
pass
else:
string = string + line.strip()
#print (list(string))
w = input("Please enter window size:")
test = [string[i:i+w] for i in range (0,len(string),w)]
seq = input("Please enter the number of sequences you wish to read:")
#print (test[0:seq])
次のようなリストを生成します-
['TAAAACACCC', 'TCAATTCAAG', 'GGTTTTTGAG', 'CGAGCTTTTT', 'ACTCAAAGAA', 'TCCAAGATAG', 'CGTTTAAAAA', 'TTTAGGGGTG', 'TTAGGCTCAG', 'CATAGAGTTT']
次のステップは、リストの各要素での文字GC
(または可能性があります)の出現を読み取ることです。CG
出力ファイルが次のようになるようにリストをループする方法はありますか:
Segment 1- The %GC is <the calculated number>
Segment 2- The %GC is <the calculated number>
Segment 3- The %GC is <the calculated number>
ファイルが非常に大きく、セグメントの数(のようなリストの個々の要素'TAAGATATA'
)が膨大になるため、セグメントの数(1、2、3 ...)を取得する方法がわかりません出力ファイルで。また、私はPython(およびプログラミング)が初めてなので、関数をうまく使用するのがあまり得意ではありません。