2

私は現在-outfmt 10、Blast のオプションを使用するライブラリを作成しています。これにより、かなり人間が読める形式ではなく、CSV が得られます。

お気に入り

tblastn -db dmel_a -query somequery.faa -outfmt 10

問題は、処理後にいくつかのシーケンスを抽出できるように、db ソース ファイルにアクセスしたいということです。これを行う方法を知っている唯一の方法は、remove を使用し-outfmt 10て blast を 2 回実行することです。次に、次の行の人間が読める形式の出力を解析します。

Database: Source.fas

ただし、 でtitleデータベースを作成するときに が指定されていない場合にのみ機能しますmakeblastdbstitleとにかく、 ofoutfmt 10は fasta ヘッダー行のようです。.fna, .fas, .faaソースファイルとは異なる名前をデータベースに付けることができるため、データベース名と a だけを探すことはできません。

blast データベース名から fasta ソース ファイルを抽出する別の方法はありますか? outfmtオプションのリストに何も表示されません。それとも今日は盲目ですか?

4

1 に答える 1

0

Biostar の質問に基づいて機能するソリューションと、爆破されたバイオインフォマティクスのブログ投稿を見つけました。fasta が NCBI 命名法に厳密に従っていない場合は、Blast+ 2.2.28 が必要です。

blast データベースを作成するときは、-parse_seqidsフラグを使用します。次に、blastdbcmd を使用して、シーケンスの範囲を抽出できます。

blastdbcmd -db t/blastTest/dmel -range 1-10 -entry some_seq_id
于 2013-06-24T16:28:07.997 に答える