ファイルに次の行があります。1 行の例を次に示します。
NM_???? chr12 - 10 110 10 110 3 10,50,100, 20,60,110,
情報を取得するための次のコードがあります。
fp = open(infile, 'r')
for line in fp:
tokens = line.split()
exonstarts = tokens[8][:-1].split(',')
exonends = tokens[9][:-1].split(',')
これにより、次のようなリストが表示されます。
exonstarts = [10,50,100]
exonends = [20,60,110]
これには 3 つのエクソンがあり (ただし、ファイル内の他の行は 3 つより多い場合も少ない場合もあるため、これは任意の数のエクソンに対して機能する必要があります)。
10-20
50-60
100-110
したがって、スタート リストの各番号に対して、フィニッシュ リストに 1 つずつあります。これは、最初のコドンが exonstarts[0] で開始し、exonends[0] で終了することを意味します。2 番目は exonstarts[1] で開始し、exonends[1] で終了します。等々。
このコードの残りの部分をどのように記述して、要素をペアにするのでしょうか?
アップデート:
これから:
tokens = line.split()
exonstarts = tokens[8][:-1].split(',')
exonends = tokens[9][:-1].split(',')
zipped = list(zip(exonstarts, exonends))
私には別の問題があります。たとえば、私はchr_string[10:20]+chr_string[50:60]+chr_string[100:110]
これを簡単に言う方法はありますか??