MD タグを BAM ファイルに追加するために「samtools camed」を使用しています。元の BAM のサイズは約 50Gb です (pacbio HIFI 読み取りを使用した全ゲノム配列)。私が遭遇した問題は、「calmd」の速度が信じられないほど遅いということです! ジョブはすでに 12 時間実行されており、MD タグ付きの 600MB の BAM のみが生成されます。このように、50GB の BAM が完了するまでに 30 日かかります。
MDタグを追加するために使用したコードは次のとおりです(非常に正常です):
rule addMDTag:
input:
rules.pbmm2_alignment.output
output:
strBAMDir + "/pbmm2/v37/{wcReadsType}/Tmp/rawReads{readsIndex}.MD.bam"
params:
ref = strRef
threads:
16
log:
strBAMDir + "/pbmm2/v37/{wcReadsType}/Log/rawReads{readsIndex}.MD.log"
benchmark:
strBAMDir + "/pbmm2/v37/{wcReadsType}/Benchmark/rawReads{readsIndex}.MD.benchmark.txt"
shell:
"samtools calmd -@ {threads} {input} {params.ref} -bAr > {output}"
使用した samtools のバージョンは v1.10 です。
ところで、私は 16 コアを使用して Calald を実行していますが、samtools はまだ 1 コアを使用して実行しているようです。
top - 11:44:53 up 47 days, 20:35, 1 user, load average: 2.00, 2.01, 2.00
Tasks: 1723 total, 3 running, 1720 sleeping, 0 stopped, 0 zombie
Cpu(s): 2.8%us, 0.3%sy, 0.0%ni, 96.8%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Mem: 529329180k total, 232414724k used, 296914456k free, 84016k buffers
Swap: 12582908k total, 74884k used, 12508024k free, 227912476k cached
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
93137 lix33 20 0 954m 151m 2180 R 100.2 0.0 659:04.13 samtools
Calamd をもっと速くする方法を教えてください。または、同じ作業をより効率的に行うことができる他のツールはありますか?
本当にありがとう