一連の文字列の変異残基と位置の数値コーディングを計算する必要がある python プログラムを作成しています。これらの文字列はタンパク質配列です。これらの配列は fasta 形式のファイルに保存され、各タンパク質配列はコンマで区切られています。長さはタンパク質によって異なる場合があります。これで、変異している位置と配列を見つけようとしました。
これを取得するために次のコードを使用しました。
a = 'AGFESPKLH'
b = 'KGFEHMKLH'
for i in range(len(a)):
if a[i] != b[i]:
print i, a[i], b[i]
しかし、入力ファイルとして配列ファイルが必要です。次の図は私のプロジェクトを示しています。この図では、最初のボックスは入力ファイル配列のアラインメントを表しています。最後のボックスは出力ファイルを表しています。Pythonでこれを行うにはどうすればよいですか? 私を助けてください。皆様お時間をいただきありがとうございました。
例:
input file
MTAQDD,MTAQDD,MTSQED,MTAQDD,MKAQHD
positions 1 2 3 4 5 6 1 2 3 4 5 6
protein sequence1 M T A Q D D T A D
protein sequence2 M T A Q D D T A D
protein sequence3 M T S Q E D T S E
protein sequence4 M T A Q D D T A D
protein sequence5 M K A Q H D K A H
PROTEIN SEQUENCE ALIGNMENT DISCARD NON-VARIABLE REGION
positions 2 2 3 3 5 5 5
protein sequence1 T A D
protein sequence2 T A D
protein sequence3 T S E
protein sequence4 T A D
protein sequence5 K A H
MUTATED RESIDUE IS SPLITED TO SEPARATE COLUMN
出力ファイルは次のようになります。
position+residue 2T 2K 3A 3S 5D 5E 5H
sequence1 1 0 1 0 1 0 0
sequence2 1 0 1 0 1 0 0
sequence3 1 0 0 1 0 1 0
sequence4 1 0 1 0 1 0 0
sequence5 0 1 1 0 0 0 1
(RESIDUES ARE CODED 1 IF PRESENT, 0 IF ABSENT)