私はいくつかのFASTAに似たシーケンスに取り組んでいます(FASTAではありませんが、PISCESサーバーからのいくつかのカリングされたPDBに類似したものを定義しました)。
質問があります。と呼ばれるシーケンスの数が少なく、nCatSeq
複数ありますnBasinSeq
。nCatSeq
大きなPDBファイルを調べて、対応nBasinSeq
する辞書の冗長性なしでそれぞれを抽出したいと思います。これを行うコードスニペットを以下に示します。
nCatSeq=item[1][n]+item[1][n+1]+item[1][n+2]+item[1][n+3]
nBasinSeq=item[2][n]+item[2][n+1]+item[2][n+2]+item[2][n+3]
if nCatSeq not in potBasin:
potBasin[nCatSeq]=nBasinSeq
else:
if nBasinSeq not in potBasin[nCatSeq]:
potBasin[nCatSeq]=potBasin[nCatSeq],nBasinSeq
else:
pass
1つのnCatSeqの答えとして、次のようになります。
'4241': ((('VUVV', 'DDRV'), 'DDVG'), 'VUVV')
しかし、私が欲しいのは:
'4241':('VUVV'、'DDRV'、'DDVG'、'VUVV')
次のコマンドのため、余分なブラケットをすべて必要としません
potBasin[nCatSeq]=potBasin[nCatSeq],nBasinSeq
(上記のコードスニペットを参照)
これを行う方法はありますか?