ドイツのハイデルベルク大学のモリッツです。
私の学士論文では、肝細胞癌患者による 20 個の大きな (25 ~ 30 GB) ゲノム ファイル (.txt.gz) があります。Ubuntu サーバーに Bpipe をインストールしましたが、いくつかのアプローチを試す必要があります。
含まれる手順は次のとおりです。
- hg19.fasta に対するアライメント (BWA (Transform sai and sam))
- 変換 (samtols)
- 重複除外
私が抱えている問題は、bpipe ワークフローを試すために、30 GB のシーケンス全体を取得して、最初から開始する必要があることです。それには多くの時間がかかります。だから私の質問は:
1 つのファイルを短縮するにはどうすればよいですか?
パイプラインのテストに使用できる短いシーケンスはどこにありますか?