bioinformatics - fastq ファイルをソートし、配列の長さを 15 ～ 17 bp に保つ

質問する 2015-07-31T22:26:21.947

423 次

cutadapt を使用してトランスポゾンの末端配列を切り取る非常に大きな fastq ファイルがいくつかあります。これにより、15 ～ 17 塩基対のゲノム DNA が残るはずです。cutadapt を使用した後、fastq ファイルの大部分は 15 ～ 17 塩基対ですが、一部の配列はかなり長くなります (それらにはトランスポゾン末端配列がなく、私の実験ではガベージリードであることを示しています)。

私の質問: これらの fastq ファイルを並べ替えて、通常の fastq 形式を保持しながら、15 ～ 17 塩基対の長さの読み取りのみを含む新しい fastq を出力するために、Linux で使用できるコマンドまたはスクリプトはありますか?

参考までに、fastq 形式は次のようになります。

@D64TDFP1:287:C69APACXX:2:1101:1319:2224 1:N:0:
GTTAGACCGGATCCTAACAGGTTGGATGATAAGTCCCCGGTCTAT
+
DDHHHDHHGIHIIIIE?FFHECGHICHHGH>BD?GHIIIIFHIDG
@D64TDFP1:287:C69APACXX:2:1101:1761:2218 1:N:0:
GTTAGACCGGATCCTAACAGGTTGGATGATAAGTCCCCGGTCTAT
+
FFHHHHHJIJJJJJIIJJJIJHIJJGIJIIIFJ?HHJJJJGHIGI

ここで同様の質問を見つけましたが、正しい解決策が見つからなかったようです。誰にも解決策はありますか？

bioinformatics - fastq ファイルをソートし、配列の長さを 15 ～ 17 bp に保つ

1 に答える 1

Related

Reference