workflow - ワークフローが適切に機能するようにゲノム配列を短縮するにはどうすればよいですか?

翻译自：https://stackoverflow.com/questions/17614410 2013-07-12T11:57:01.497

76 次

0

ドイツのハイデルベルク大学のモリッツです。

私の学士論文では、肝細胞癌患者による 20 個の大きな (25 ～ 30 GB) ゲノムファイル (.txt.gz) があります。Ubuntu サーバーに Bpipe をインストールしましたが、いくつかのアプローチを試す必要があります。

含まれる手順は次のとおりです。

hg19.fasta に対するアライメント (BWA (Transform sai and sam))
変換 (samtols)
重複除外

私が抱えている問題は、bpipe ワークフローを試すために、30 GB のシーケンス全体を取得して、最初から開始する必要があることです。それには多くの時間がかかります。だから私の質問は：

1 つのファイルを短縮するにはどうすればよいですか?

パイプラインのテストに使用できる短いシーケンスはどこにありますか?

1 に答える 1