多数のエントリを含む FASTA ファイルがあります。すべての DNA 配列は異なりますが、一部の FASTA 名は同一です。名前のコピーが複数ある場合は、一意の名前になるように番号を追加したいと思います。例えば:
>NAME
ATTTTTGGGGGGTGTGTG
>NAME
ATTTTTTTTCGCGCGC
>NAME
AAACCCTTTGTG
次のようになります。
>NAME_1
ATTTTTGGGGGGTGTGTG
>NAME_2
ATTTTTTTTCGCGCGC
>NAME_3
AAACCCTTTGTG
ありがとう。
アップデート。とにかくRでこれを使用することを計画していたので、fastaシーケンスをRにインポートし、それをデータフレームdf. 次に、次の行を使用して、必要に応じて名前を変更できます。
library(plyr)
ddply(df, Name_Column, transform, Column = paste(Name_Column,seq_along(Name_Column), sep=""))
この投稿に触発されたコード