bash - bwa mem と umitools の併用

Question

bwa mem を使用してシーケンスリードを hg19 リファレンスにアラインしようとしていますが、すべてのシーケンスに UMI (Unique Molecular Identifier) があります。私は umitools を次のように使用しました：

umitools trim --end 5 input.fastq NNNNNN > output.fastq

これにより、私の UMI シーケンスが output.fastq ファイルの名前行に適切に追加されましたが、bwa mem を使用して整列させると、次のエラーが発生します。

paired reads have different names: "someTitle:UMI_ATGCTC", "someTitle:UMI_CATTAT"

これが起こらないように、bwa mem と umitools の両方を一緒に使用する方法はありますか?

score 0 · Accepted Answer

したがって、これは質問に完全に答えているわけではありませんが、近づいています。umitools は、そのままではペアエンド読み取りには機能しません。これを回避するために私がしたことは、UMI シーケンス (読み取りの両側で 6bp) を切り取り、次のコードを使用して整列させることでした。

sed -i~ '2~4s/^.\{6\}//' file

アドレス2~4は「2行目から始めて4行ずつ繰り返す」という意味です。

s置換を意味し、^行頭に.一致し、任意の文字に一致し\{6\}、長さを指定します (「量指定子」)。置換文字列が空です ( //)。

-i~ファイルをその場で置き換え、ファイル名にが~追加されたバックアップを残します。

1 に答える 1