これはバイオインフォマティクス関連の質問ですが、それでもプログラミングに関する非常に重要な質問です。以下に示す問題のために bash でいくつかのライナーを作成できなかったので、ここで質問することを考えました。親切に助けてください。
問題: 2 つのファイル (タブ区切り) があります。ファイルAは次のようになります
chr1 17050255 234916798
chr1 36688211 36840408
chr1 153961765 154156955
chr1 154128722 154194653
chr1 154130378 154156872
chr1 207493679 207819735
これはゲノム座標のリストです。
ファイル B には、最初の 3 列にゲノム座標も含まれており、4 列目には名前があります。
chr1 1709155 1709324 MMM3
chr1 1709155 1709324 Sk-20
chr1 1709608 1709727 ZdaA
chr1 1709608 1709727 ZdaA
chr1 1709608 1709727 ZA
chr1 1709629 1709727 E-1
chr1 1709629 1709727 E-1
chr1 1709629 1709727 E-1
ファイルAと重なるファイルBの領域(4列目とともに)を持ち、このように印刷したい
ChrA StrtA stpA ChrB SrtB StpB Name
ファイル A のリージョンが最初に来て、ファイル B の 4 番目の列の値とともに、ファイル B で重なっているリージョンが続きます。
ありがとうございました