cutadapt を使用してトランスポゾンの末端配列を切り取る非常に大きな fastq ファイルがいくつかあります。これにより、15 ~ 17 塩基対のゲノム DNA が残るはずです。cutadapt を使用した後、fastq ファイルの大部分は 15 ~ 17 塩基対ですが、一部の配列はかなり長くなります (それらにはトランスポゾン末端配列がなく、私の実験ではガベージ リードであることを示しています)。
私の質問: これらの fastq ファイルを並べ替えて、通常の fastq 形式を保持しながら、15 ~ 17 塩基対の長さの読み取りのみを含む新しい fastq を出力するために、Linux で使用できるコマンドまたはスクリプトはありますか?
参考までに、fastq 形式は次のようになります。
@D64TDFP1:287:C69APACXX:2:1101:1319:2224 1:N:0:
GTTAGACCGGATCCTAACAGGTTGGATGATAAGTCCCCGGTCTAT
+
DDHHHDHHGIHIIIIE?FFHECGHICHHGH>BD?GHIIIIFHIDG
@D64TDFP1:287:C69APACXX:2:1101:1761:2218 1:N:0:
GTTAGACCGGATCCTAACAGGTTGGATGATAAGTCCCCGGTCTAT
+
FFHHHHHJIJJJJJIIJJJIJHIJJGIJIIIFJ?HHJJJJGHIGI
ここで同様の質問を見つけましたが、正しい解決策が見つからなかったようです。誰にも解決策はありますか?