最小値と最大値を取得すると同時に、平均化、プーリング、および複雑なインデックス作成を試みています。開始するには、これは例data.frame
です:
ID ID2 probe chrom strand txStart txEnd
Rest_3 uc001aah.4 8044649 chr1 0 14361 29370
Rest_4 uc001aah.4 7911309 chr1 0 14361 29370
Rest_5 uc001aah.4 8171066 chr1 0 14361 29370
Rest_6 uc001aah.4 8159790 chr1 0 14361 29370
Rest_17 uc001abw.1 7896761 chr1 0 861120 879961
Rest_18 uc001abx.1 7896761 chr1 0 871151 879961
ID2列で重複を見つけていduplicated
ました:uc001aah.4には4つの重複があります。しかし、私が必要としている方法と、方法がわからないのは、uc001aah.4 のエントリを 1 つだけ持ち、プローブ列 (+ その他のエントリ) を 1 つのセル (Excel に関して) にプールする8044649, 7911309, 8171066, 8159790
ことです。最後は次のようになります。
ID ID2 probe chrom strand txStart txEnd
Rest_3,Rest_4, Rest_5, Rest_6 uc001aah.4 8044649, 7911309, 8171066, 8159790 chr1 0 14361 29370
ただし、重複はプローブ列にも当てはまります。
ID ID2 probe chrom strand txStart txEnd
Rest_17 uc001abw.1 7896761 chr1 0 861120 879961
Rest_18 uc001abx.1 7896761 chr1 0 871151 879961
したがって、ここでは、列 txStart の最小値と列 txEnd の最大値を取得しながら、ID と ID2 をプールする必要があります。
ID ID2 probe chrom strand txStart txEnd
Rest_17, Rest_18 uc001abw.1, uc001abx.1 7896761 chr1 0 861120 879961
これが多くの質問をしていることはわかっていますが、最初の問題でこれを行う方法を教えていただければ、それを2番目の問題に適用する方法を理解できると確信しています.