次の方法で類似性を示すペアワイズ DNA シーケンスのデータがあります。
AATGCTA|1 AATCGTA|2
AATCGTA|2 AATGGTA|3
AATGGTA|3 AATGGTT|8
TTTGGTA|4 ATTGGTA|5
ATTGGTA|5 CCTGGTA|9
CCCGGTA|6 GCCGGTA|7
GGCGGTA|10 AATCGTA|2
GGCGGTA|10 TGCGGTA|11
CAGGCA|12 GAGGCA|13
上記はサンプルの入力ファイルで、元のファイルは数百万行です。以下のように、出力を行間の共通要素に基づいて重複する ID をクラスター化し、クラスターごとに 1 行に出力するようにします。
AATGCTA|1 AATCGTA|2 AATGGTA|3 AATGGTT|8 GGCGGTA|10 TGCGGTA|11
TTTGGTA|4 ATTGGTA|5 CCTGGTA|9
CCCGGTA|6 GCCGGTA|7
CAGGCA|12 GAGGCA|13
現在、 mclとsilixを使用してそれらをクラスター化しようとしていますが、silix の実行に成功しませんでした。しかし、mcl は現在進行中です。awk または perl でこれを行うスマートな方法が他にあるかどうかを知りたいです。いくつかの解決策に感謝します、ありがとう。(初投稿なので間違っていたらごめんなさい)
簡単にするために..私の入力は、
1 2
2 3
3 8
4 5
5 9
6 7
10 2
10 11
12 13
そして、私は出力が欲しい、
1 2 3 8 10 11
4 5 9
6 7
12 13