2

MD タグを BAM ファイルに追加するために「samtools camed」を使用しています。元の BAM のサイズは約 50Gb です (pacbio HIFI 読み取りを使用した全ゲノム配列)。私が遭遇した問題は、「calmd」の速度が信じられないほど遅いということです! ジョブはすでに 12 時間実行されており、MD タグ付きの 600MB の BAM のみが生成されます。このように、50GB の BAM が完了するまでに 30 日かかります。

MDタグを追加するために使用したコードは次のとおりです(非常に正常です):

rule addMDTag:
    input:
        rules.pbmm2_alignment.output        
    output: 
        strBAMDir + "/pbmm2/v37/{wcReadsType}/Tmp/rawReads{readsIndex}.MD.bam"               
    params:
        ref = strRef
    threads:
        16
    log:
        strBAMDir + "/pbmm2/v37/{wcReadsType}/Log/rawReads{readsIndex}.MD.log"
    benchmark:
        strBAMDir + "/pbmm2/v37/{wcReadsType}/Benchmark/rawReads{readsIndex}.MD.benchmark.txt"
    shell:
        "samtools calmd -@ {threads} {input} {params.ref} -bAr > {output}"

使用した samtools のバージョンは v1.10 です。

ところで、私は 16 コアを使用して Calald を実行していますが、samtools はまだ 1 コアを使用して実行しているようです。

top - 11:44:53 up 47 days, 20:35,  1 user,  load average: 2.00, 2.01, 2.00
Tasks: 1723 total,   3 running, 1720 sleeping,   0 stopped,   0 zombie
Cpu(s):  2.8%us,  0.3%sy,  0.0%ni, 96.8%id,  0.0%wa,  0.0%hi,  0.0%si,  0.0%st
Mem:  529329180k total, 232414724k used, 296914456k free,    84016k buffers
Swap: 12582908k total,    74884k used, 12508024k free, 227912476k cached

   PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND                                                                                                                                       
 93137 lix33     20   0  954m 151m 2180 R 100.2  0.0 659:04.13 samtools 

Calamd をもっと速くする方法を教えてください。または、同じ作業をより効率的に行うことができる他のツールはありますか?

本当にありがとう

4

1 に答える 1