大きなファイル内のすべての単語間ですべての文字の不一致を見つける最速の方法を探しています。私がこれを持っている場合:
AAAA
AAAB
AABA
BBBB
CCCC
私はこのようなものを取得したいと思います:
AAAA - AAAB AABA
AAAB - AAAA
AABA - AAAA
BBBB
CCCC
現在、私は agrep を使用していますが、私のファイルは数百万行の長さであり、非常に遅いです。各単語はそれぞれの行にあり、すべて同じ文字数です。私が見つけられなかったエレガントなものがあると思います。ありがとうございました
編集: 単語は、ATCG または N の 5 文字だけで構成されており、長さは 100 文字弱です。全体がメモリに収まる必要があります(<5GB)。1 行に 1 つの単語があり、それを他のすべての単語と比較したいと思います。
Edit2: 例が正しくありませんでした。現在は修正されています。