0

ドイツのハイデルベルク大学のモリッツです。

私の学士論文では、肝細胞癌患者による 20 個の大きな (25 ~ 30 GB) ゲノム ファイル (.txt.gz) があります。Ubuntu サーバーに Bpipe をインストールしましたが、いくつかのアプローチを試す必要があります。

含まれる手順は次のとおりです。

  • hg19.fasta に対するアライメント (BWA (Transform sai and sam))
  • 変換 (samtols)
  • 重複除外

私が抱えている問題は、bpipe ワークフローを試すために、30 GB のシーケンス全体を取得して、最初から開始する必要があることです。それには多くの時間がかかります。だから私の質問は:

1 つのファイルを短縮するにはどうすればよいですか?

パイプラインのテストに使用できる短いシーケンスはどこにありますか?

4

1 に答える 1