regex - 非常に大きなファイル間の grep パターンマッチが遅すぎる

Question

私はこれにあまりにも多くの時間を費やしてきたので、提案を探しています。ファイルが大きすぎます (興味のある方は、イルミナシーケンスランからの FASTQ ファイルを参照してください)。私がする必要があるのは、両方のファイル間で共通のパターンを一致させ、その行とその下の 3 行を複製せずに (元のファイルに存在する) 2 つの別個のファイルに出力することです。grep はこれを問題なく実行しますが、ファイルは最大 18 GB であり、それらの間のマッチングは途方もなく遅くなります。私がする必要があることの例を以下に示します。

ファイル A:

@DLZ38V1_0262:8:1101:1430:2087#ATAGCG/1
NTTTCAGTTAGGGCGTTTGAAAACAGGCACTCCGGCTAGGCTGGTCAAGG
+DLZ38V1_0262:8:1101:1430:2087#ATAGCG/1
BP\cccc^ea^eghffggfhh`bdebgfbffbfae[_ffd_ea[H\_f_c
@DLZ38V1_0262:8:1101:1369:2106#ATAGCG/1
NAGGATTTAAAGCGGCATCTTCGAGATGAAATCAATTTGATGTGATGAGC
+DLZ38V1_0262:8:1101:1369:2106#ATAGCG/1
BP\ccceeggggfiihihhiiiihiiiiiiiiihighiighhiifhhhic
@DLZ38V1_0262:8:2316:21261:100790#ATAGCG/1
TGTTCAAAGCAGGCGTATTGCTCGAATATATTAGCATGGAATAATAGAAT
+DLZ38V1_0262:8:2316:21261:100790#ATAGCG/1
__\^c^ac]ZeaWdPb_e`KbagdefbZb[cebSZIY^cRaacea^[a`c

で始まる 3 つの一意のヘッダーと、それに@続く 3 つの追加行が表示されます。

ファイル B:

@DLZ38V1_0262:8:1101:1430:2087#ATAGCG/2
GAAATCAATGGATTCCTTGGCCAGCCTAGCCGGAGTGCCTGTTTTCAAAC
+DLZ38V1_0262:8:1101:1430:2087#ATAGCG/2
_[_ceeeefffgfdYdffed]e`gdghfhiiihdgcghigffgfdceffh
@DLZ38V1_0262:8:1101:1369:2106#ATAGCG/2
GCCATTCAGTCCGAATTGAGTACAGTGGGACGATGTTTCAAAGGTCTGGC
+DLZ38V1_0262:8:1101:1369:2106#ATAGCG/2
_aaeeeeegggggiiiiihihiiiihgiigfggiighihhihiighhiii
@DLZ38V1_0262:8:1101:1369:2106#ATAGCG/2
GCCATTCAGTCCGAATTGAGTACAGTGGGACGATGTTTCAAAGGTCTGGC
+DLZ38V1_0262:8:1101:1369:2106#ATAGCG/2
_aaeeeeegggggiiiiihihiiiihgiigfggiighihhihiighhiii
@DLZ38V1_0262:8:1101:1369:2106#ATAGCG/2
GCCATTCAGTCCGAATTGAGTACAGTGGGACGATGTTTCAAAGGTCTGGC
+DLZ38V1_0262:8:1101:1369:2106#ATAGCG/2
_aaeeeeegggggiiiiihihiiiihgiigfggiighihhihiighhiii

ここには 4 つのヘッダーがありますが、そのうちの 1 つが 3 回繰り返されるため、固有のものは 2 つだけです。

重複のない 2 つのファイル間の共通ヘッダーと、その下の 3 行が必要です。各ファイルで同じ順序で。

これが私がこれまでに持っているものです：

grep -E @DLZ38V1.*/ --only-matching FileA | sort -u -o FileA.sorted
grep -E @DLZ38V1.*/ --only-matching FileB | sort -u -o FileB.sorted
comm -12 FileA.sorted FileB.sorted > combined

組み合わせた

@DLZ38V1_0262:8:1101:1369:2106#ATAGCG/
@DLZ38V1_0262:8:1101:1430:2087#ATAGCG/

これは、重複のない 2 つのファイル間の共通ヘッダーのみです。これが私が欲しいものです。ここで、これらのヘッダーを元のファイルと一致させ、その下の 3 行を 1 回だけ取得する必要があります。

grep を使用すると、各ファイルに必要なものを取得できます

while read -r line; do
   grep -A3 -m1 -F $line FileA
done < combined > FileA.Final

FileA.Final

@DLZ38V1_0262:8:1101:1369:2106#ATAGCG/1
NAGGATTTAAAGCGGCATCTTCGAGATGAAATCAATTTGATGTGATGAGC
+DLZ38V1_0262:8:1101:1369:2106#ATAGCG/1
BP\ccceeggggfiihihhiiiihiiiiiiiiihighiighhiifhhhic
@DLZ38V1_0262:8:1101:1430:2087#ATAGCG/1
NTTTCAGTTAGGGCGTTTGAAAACAGGCACTCCGGCTAGGCTGGTCAAGG
+DLZ38V1_0262:8:1101:1430:2087#ATAGCG/1
BP\cccc^ea^eghffggfhh`bdebgfbffbfae[_ffd_ea[H\_f_c

while ループを繰り返してFileB.Finalを生成します。

@DLZ38V1_0262:8:1101:1369:2106#ATAGCG/2
GCCATTCAGTCCGAATTGAGTACAGTGGGACGATGTTTCAAAGGTCTGGC
+DLZ38V1_0262:8:1101:1369:2106#ATAGCG/2
_aaeeeeegggggiiiiihihiiiihgiigfggiighihhihiighhiii
@DLZ38V1_0262:8:1101:1430:2087#ATAGCG/2
GAAATCAATGGATTCCTTGGCCAGCCTAGCCGGAGTGCCTGTTTTCAAAC
+DLZ38V1_0262:8:1101:1430:2087#ATAGCG/2

これは機能しますが、FileA と FileB は ~18GB で、結合したファイルは ~2GB 前後です。最後のステップを劇的にスピードアップする方法について誰か提案がありますか?

score 1 · Accepted Answer

これについて思いついた修正を投稿する必要があると思いました。結合されたファイル (上記) を取得したら、perl ハッシュ参照を使用してそれらをメモリに読み込み、ファイル A をスキャンしました。ファイル A の一致はハッシュされ、ファイル B をスキャンするために使用されました。これはまだ多くのメモリを必要としますが、非常に高速に動作します。grep を使用した場合の 20 日以上から最大 20 分まで。

regex - 非常に大きなファイル間の grep パターン マッチが遅すぎる

2 に答える 2

Related

Reference

regex - 非常に大きなファイル間の grep パターンマッチが遅すぎる