0

2 つの元のファイルからマージしたいくつかの BAM ファイルで GATK DepthOfCoverage を実行しようとしています (読み取り数を最大化するために、同じサンプルを 2 つのレーンでシーケンスしました)。マージされたファイルには異なるリード グループのリードがあり (各リードの RG フィールドに反映されている)、元の 2 つのファイルのヘッダーの @RG フィールドが異なっていることに気付きました。

ヘッダーに新しい @RG フィールドを追加して samtools reheader を実行しようとしましたが、2 つのファイルをマージすると、各読み取りグループは、ヘッダーの@RG の名前ではなく、2 つの BAM ファイルの名前に基づいています。2 つの BAM ファイル。

たとえば、私の 2 つの開始サンプルは次のとおりです。

27163.pe.markdup.bam
27091.pe.markdup.bam

しかし、samtools merge を使用してそれらをマージすると

samtools merge merged.bam 27163.pe.markdup.bam 27091.pe.markdup.bam 

結果のmerged.bamには、2つのうちの1つだけと同じ@RGフィールドがヘッダーにあり、各読み取りには、元のファイルの名前に基づいた読み取り名があります。

1を読む

RG:Z:27091.pe.markdup

2を読む

RG:Z:27163.pe.markdup

など、BAM の残りの読み取りについて

私は何か間違ったことをしていますか?マージする前に、元のファイルをそれぞれリヘッドする必要がありますか? それとも、GATK と互換性のあるものにマージした後、単純にリヘッドしますか? マージ前のヘッダーの @RG フィールドが何であっても、マージされたファイルには、2 つの入力ファイルの名前に基づいて常に異なる RG の読み取りが含まれるようです。

また、読み取りグループに関して、GATK DepthOfCoverage が入力として何を必要としているのかもわかりません。すべての読み取りに対して 1 つの RG が必要ですか? その場合、samtools マージとは別のものを使用する必要がありますか?

あなたが私に与えることができる助けを前もって感謝します。

4

1 に答える 1

1

今後の参考のために、ここで解決策を参照してください。

https://www.biostars.org/p/105787/#107970

基本的に正しい手順は、samtools の代わりに Picard を使用してマージすることです。これにより、bam ファイル読み取りグループ語彙に関して GATK と互換性のある出力が得られます。

于 2014-07-31T10:09:54.997 に答える