0

私は RNA-seq bam ファイルを持っていますが、私を困惑させる読み取りはほとんどありません。

bam ヘッダーによると、この bam ファイルは座標でソートされ、tophat を使用して作成され、markduplicate ステップは実行されていません。ただし、一部の読み取りは、samflag で重複しているとマークされています。さらに悪いことに、picard markduplicate を実行すると、これらの読み取りの pcr 重複フラグが切り替えられ、重複していないことが示されます。また、この読み取りの複製 (同じ開始位置と一致する開始位置を持つ同一の読み取り) を手動で見つけたので、最初のマーキングは真実に見えます。

だから私の質問は次のとおり
です。なぜこれが起こるのでしょうか?
Tophat は、重複している読み取りをマークしますか? (私はそうは思いません)
そして、読み取りが既に重複しているとマークされている場合、picard markduplicate はトグルしますか?

マーク重複ステップの前後で読み取りがどのように見えるかを次に示します。
Before:
C0RTF 1187 17 7579880 255 61M10754N40M = 7579927 10902 CTC...
0UNP1 163 17 7579880 255 61M10754N40M = 7579927 10902 CTC...

After Markduplicate
C0RTF 163 17 7579880 255 61M10754N40M = 7579927 10902 CTC...
0UNP1 163 17 7579880 255 61M10754N40M = 7579927 10902 CTC...

ありがとう

4

0 に答える 0