これでpythonとperlにタグを付けたのは、これまで使用してきたからです。誰かがこれについて行くより良い方法を知っているなら、私は確かにそれを試してみるつもりです。とにかく、私の問題:
次の形式に従う遺伝子予測プログラムの入力ファイルを作成する必要があります。
seq1 5 15
seq1 20 34
seq2 50 48
seq2 45 36
seq3 17 20
ここで、seq#はgeneIDであり、右側の数字はオープンリーディングフレーム内のエクソンの位置です。これで、他の多くの情報を含む.gff3ファイルにこの情報があります。これをExcelで開き、関連性のないデータを含む列を簡単に削除できます。現在の配置は次のとおりです。
PITG_00002 . gene 2 397 . + . ID=g.1;Name=ORF%
PITG_00002 . mRNA 2 397 . + . ID=m.1;
**PITG_00002** . exon **2 397** . + . ID=m.1.exon1;
PITG_00002 . CDS 2 397 . + . ID=cds.m.1;
PITG_00004 . gene 1 1275 . + . ID=g.3;Name=ORF%20g
PITG_00004 . mRNA 1 1275 . + . ID=m.3;
**PITG_00004** . exon **1 1275** . + . ID=m.3.exon1;P
PITG_00004 . CDS 1 1275 . + . ID=cds.m.3;P
PITG_00004 . gene 1397 1969 . + . ID=g.4;Name=
PITG_00004 . mRNA 1397 1969 . + . ID=m.4;
**PITG_00004** . exon **1397 1969** . + . ID=m.4.exon1;
PITG_00004 . CDS 1397 1969 . + . ID=cds.m.4;
したがって、太字のデータのみが必要です。例えば、
PITG_0002 2 397
PITG_00004 1 1275
PITG_00004 1397 1969
あなたが与えることができるどんな助けでも大いに感謝されるでしょう、ありがとう!
編集:まあ、私はフォーマットを台無しにしました。**の間にあるものはすべて私が必要なものです笑。