開始と終了を含む遺伝子のリストがあります。これらの遺伝子にはさまざまなアイソフォームが存在することが多いため、開始値の最小値と終了値の最大値を指定して新しいファイルを作成したいと考えています。
そう:
入力:
Chromosome Start position (bp) Stop position (bp) Gene name
1 67000041 67208778 SGIP1
1 48999844 50489468 AGBL4
1 16767256 16785385 NECAP2
1 25072044 25167428 CLIC4
1 33547850 33585783 ADC
1 16767256 16785385 NECAP2
1 16767256 16785491 NECAP2
1 8384389 8404073 SLC45A1
1 92149295 92327088 TGFBR3
1 100661810 100715376 DBT
1 92149295 92327088 TGFBR3
1 92149295 92327088 TGFBR3
1 92351836 92351836 TGFBR3
1 226420201 226496888 LIN9
1 226420000 226485422 LIN9
1 226420201 226496888 LIN9
望ましい出力:
Chromosome Start position (bp) Stop position (bp) Gene name
1 67000041 67208778 SGIP1
1 48999844 50489468 AGBL4
1 16767256 16785491 NECAP2
1 25072044 25167428 CLIC4
1 33547850 33585783 ADC
1 8384389 8404073 SLC45A1
1 92149295 92351836 TGFBR3
1 100661810 100715376 DBT
1 226420000 226496888 LIN9
基本的に、各遺伝子を個別に取得して、MIN{開始位置 (bp)} と MAX {停止位置 (bp)} を取得したいと考えています。
これを行うためのgrep/awkトリックはありますか? 必要に応じて、Excel のトリックも行います。
ありがとう