0

bwa mem を使用してシーケンス リードを hg19 リファレンスにアラインしようとしていますが、すべてのシーケンスに UMI (Unique Molecular Identifier) があります。私は umitools を次のように使用しました:

umitools trim --end 5 input.fastq NNNNNN > output.fastq

これにより、私の UMI シーケンスが output.fastq ファイルの名前行に適切に追加されましたが、bwa mem を使用して整列させると、次のエラーが発生します。

paired reads have different names: "someTitle:UMI_ATGCTC", "someTitle:UMI_CATTAT"

これが起こらないように、bwa mem と umitools の両方を一緒に使用する方法はありますか?

4

1 に答える 1

0

したがって、これは質問に完全に答えているわけではありませんが、近づいています。umitools は、そのままではペアエンド読み取りには機能しません。これを回避するために私がしたことは、UMI シーケンス (読み取りの両側で 6bp) を切り取り、次のコードを使用して整列させることでした。

sed -i~ '2~4s/^.\{6\}//' file

アドレス2~4は「2行目から始めて4行ずつ繰り返す」という意味です。

s置換を意味し、^行頭に.一致し、任意の文字に一致し\{6\}、長さを指定します (「量指定子」)。置換文字列が空です ( //)。

-i~ファイルをその場で置き換え、ファイル名に が~追加されたバックアップを残します。

于 2015-02-21T20:20:52.143 に答える