2 つの元のファイルからマージしたいくつかの BAM ファイルで GATK DepthOfCoverage を実行しようとしています (読み取り数を最大化するために、同じサンプルを 2 つのレーンでシーケンスしました)。マージされたファイルには異なるリード グループのリードがあり (各リードの RG フィールドに反映されている)、元の 2 つのファイルのヘッダーの @RG フィールドが異なっていることに気付きました。
ヘッダーに新しい @RG フィールドを追加して samtools reheader を実行しようとしましたが、2 つのファイルをマージすると、各読み取りグループは、ヘッダーの@RG の名前ではなく、2 つの BAM ファイルの名前に基づいています。2 つの BAM ファイル。
たとえば、私の 2 つの開始サンプルは次のとおりです。
27163.pe.markdup.bam
27091.pe.markdup.bam
しかし、samtools merge を使用してそれらをマージすると
samtools merge merged.bam 27163.pe.markdup.bam 27091.pe.markdup.bam
結果のmerged.bamには、2つのうちの1つだけと同じ@RGフィールドがヘッダーにあり、各読み取りには、元のファイルの名前に基づいた読み取り名があります。
1を読む
RG:Z:27091.pe.markdup
2を読む
RG:Z:27163.pe.markdup
など、BAM の残りの読み取りについて
私は何か間違ったことをしていますか?マージする前に、元のファイルをそれぞれリヘッドする必要がありますか? それとも、GATK と互換性のあるものにマージした後、単純にリヘッドしますか? マージ前のヘッダーの @RG フィールドが何であっても、マージされたファイルには、2 つの入力ファイルの名前に基づいて常に異なる RG の読み取りが含まれるようです。
また、読み取りグループに関して、GATK DepthOfCoverage が入力として何を必要としているのかもわかりません。すべての読み取りに対して 1 つの RG が必要ですか? その場合、samtools マージとは別のものを使用する必要がありますか?
あなたが私に与えることができる助けを前もって感謝します。