この形式から FASTA ヘッダーを変換する必要があります。
gi|351517969|ref|NW_003613580.1| Cricetulus griseus 配置されていないゲノム足場、CriGri_1.0 scaffold329、全ゲノム ショットガン シーケンス
これに:
NW_003613580.1 Cricetulus griseus 未配置ゲノム足場、CriGri_1.0 scaffold329、全ゲノムショットガン配列
NW の W は、他のアドレスでは C である場合があり、アンダースコアの後の桁数はさまざまです。
ID を別の形式に変更するための perl スクリプトを見つけ、それを変更しようとしていました。関連する部分:
while( $seq = $seq_in->next_seq() )
{
my $seqName = $seq->id;
$seqName =~ s/\|/\./g; #replace pipe with dot
$seqName =~ s/(NW\_)/$1/;
#$seqName =~ s/(gi\.\w*)\..*/$1/;
$seq->id($seqName);
$seq_out->write_seq($seq);
}
コメントアウトされた seqname ビットがオリジナルです。giをNWに変更すると、ヘッダーの後半で読み取りが開始されることを望んでいましたが、サイコロはありませんでした。ただし、$1 をランダム テキストに変更すると、NW で置換されるため、よくわかりません。また、パイプを交換するピリオドは、論理的な理由がなくても消えているように見えます (私はそれらをなくしたいのですが)。ここで検索と置換がどのように機能するかについてのヘルプ、または少なくともいくつかのリソースをいただければ幸いです。