python - シーケンスファイルを作成せずに BLAST (bl2seq) を実行する

Question

BLAST クエリ (bl2seq) を実行するスクリプトがあります。

スクリプトは次のように機能します。

系列a、系列bを取得

シーケンス a を filea に書き込む

シーケンス b を fileb に書き込む

コマンド「bl2seq -i filea -j fileb -n blastn」を実行します

STDOUT から出力を取得し、解析します

2000万回繰り返す

プログラム bl2seq はパイピングをサポートしていません。これを行い、ハードドライブへの書き込み/読み取りを回避する方法はありますか?

私はPython BTWを使用しています。

score 4 · Accepted Answer

実行している OS によっては、 bash のプロセス置換などを使用できる場合があります。Python でどのように設定したかはわかりませんが、基本的には名前付きパイプ (または名前付きファイル記述子) を使用しています。ファイル内をシークしようとすると機能しませんbl2seqが、順番に読み取るだけであれば機能するはずです。

score 1 · Accepted Answer

わお。私はそれを理解しました。

答えは、python の subprocess モジュールとパイプを使用することです!

編集：配管をサポートするblast2を使用していることを忘れていました。

（これはクラスの一部です）

def _query(self):
    from subprocess import Popen, PIPE, STDOUT
    pipe = Popen([BLAST,
    '-p', 'blastn',
    '-d', self.database,
    '-m', '8'],
    stdin=PIPE,
    stdout=PIPE)
    pipe.stdin.write('%s\n' % self.sequence)
    print pipe.communicate()[0]

ここで、self.database はデータベースファイル名を含む文字列です。つまり、'nt.fa' self.sequence はクエリシーケンスを含む文字列です。

これにより、出力が画面に出力されますが、簡単に解析できます。遅いディスク I/O はありません。遅い XML 解析はありません。このためのモジュールを作成し、github に配置します。

また、ここまではまだできていませんが、クエリごとにブラストデータベースを読み取って RAM にロードする必要がないように、複数のクエリを実行できると思います。

score 1 · Accepted Answer

bl2seq がパイピングをサポートしていないことをどのように知っていますか? ちなみに、パイプはプログラムではなく OS の機能です。bl2seq プログラムが何かを出力する場合は、STDOUT に出力するかファイルに出力するかを問わず、出力を解析できるはずです。オプションなど、ファイルに出力するためのオプションについては、bl2seq のヘルプファイルを確認してください-o。その後、ファイルを解析できます。

また、Python を使用しているため、使用できる代替手段はBioPythonモジュールです。

score 1 · Accepted Answer

これはBioPerlbl2seqのプログラムですか? もしそうなら、あなたはそれに配管することができないようです。ただし、推奨される方法であるを使用して、独自のハックをコーディングできます。ただし、でそれを行う必要があります。Bio::Tools::Run::AnalysisFactory::PisePerl

これが異なる場合bl2seqは、メッセージを無視してください。いずれにせよ、おそらくもう少し詳細を提供する必要があります。

score 1 · Accepted Answer

R スクリプトを使用して blast2 を呼び出します。

....
system("mkfifo seq1")
system("mkfifo seq2")
system("echo  sequence1 > seq1"), wait = FALSE)
system("echo  sequence2 > seq2"), wait = FALSE)
system("blast2 -p blastp -i seq1 -j seq2 -m 8", intern = TRUE)
....

これは、ハードドライブからの書き込みと読み取りに比べて 2 倍 (!) 遅くなります!

python - シーケンスファイルを作成せずに BLAST (bl2seq) を実行する

5 に答える 5

Related

Reference