r - 2つの列を比較するデータフレームから列の交差情報を含む行を削除する

Question

これは、ペア遺伝子の条件に従って異なる遺伝子発現結果をマージしようとしているときの私の特定の悪夢の 1 つです。これが私のマージされたデータフレームです。

knowngene1   Logfold1        Gene1   knowngene2   Logfold2        Gene2
uc001ezv.3  5.1167021111    NA  uc001ezu.1  5.6262305191    FLG
uc001ihe.4  4.1338871783    LOC100216001    uc001ihg.3  3.9475325801    NA
uc001iki.4  9.9902455211    CELF2   uc001ikn.2  9.3321964303    NA
uc001ikk.2  10.3059806111   CELF2   uc001ikn.2  9.3321964303    NA
uc001ikl.4  9.9890468379    CELF2   uc001ikn.2  9.3321964303    NA
uc001ikn.2  9.8293484977    NA  uc001iki.4  9.4401488053    CELF2
uc001ikn.2  9.8293484977    NA  uc001ikk.2  9.2887954663    CELF2
uc001ikn.2  9.8293484977    NA  uc001ikl.4  9.4401488053    CELF2
uc001ikn.2  9.8293484977    NA  uc010qbi.2  8.6399349792    CELF2
uc001ikn.2  9.8293484977    NA  uc010qbj.1  9.2887954663    CELF2
uc001ezu.1  5.6262305191    FLG uc001ezv.3  5.1167021111    NA
uc001ihg.3  3.9475325801    NA  uc001ihe.4  4.1338871783    LOC100216001
uc001iki.4  9.4401488053    CELF2   uc001ikn.2  9.8293484977    NA
uc001ikk.2  9.2887954663    CELF2   uc001ikn.2  9.8293484977    NA
uc001ikl.4  9.4401488053    CELF2   uc001ikn.2  9.8293484977    NA
uc001ikn.2  9.3321964303    NA  uc001iki.4  9.9902455211    CELF2
uc001ikn.2  9.3321964303    NA  uc001ikk.2  10.3059806111   CELF2
uc001ikn.2  9.3321964303    NA  uc001ikl.4  9.9890468379    CELF2
uc001ikn.2  9.3321964303    NA  uc010qbi.2  10.3865530025   CELF2
uc001ikn.2  9.3321964303    NA  uc010qbj.1  10.3072927485   CELF2
uc001iot.1  6.9068905956    NA  uc001iou.2  8.4040043896    VIM
uc001iou.2  10.4420548632   VIM uc001iot.1  5.8235197903    NA
uc001ipd.3  4.4693510978    ST8SIA6 uc001ipf.1  5.1931857169    NA
uc001kgd.3  3.5469561781    NA  uc009xts.3  4.0607448636    IFIT2
uc001kgf.3  3.3975573789    IFIT3   uc001kgd.3  3.2512633588    NA

ポイントは、重複した行ではなく削除したいということです。もちろんありません。knowngene1 と knongene2 で既知の遺伝子アクセサーが変更されているものも削除したいのです。例を示しましょう。最初のものは、保持したい行です

uc001ikn.2  9.8293484977    NA  uc001iki.4  9.4401488053    CELF2

私にとってこれらの次の行は同じです。実際、最初の行は、多かれ少なかれ同じ範囲内にある式の値にもかかわらず、保持したいもののスペキュラー画像です

uc001iki.4  9.4401488053    CELF2   uc001ikn.2  9.8293484977    NA
uc001ikn.2  9.3321964303    NA  uc001ikl.4  9.9890468379    CELF2

したがって、最初に見たものだけを保持し、次のものを削除するという考え方です。あなたはなにか考えはありますか？

score 1 · Accepted Answer

表示されるすべての行を削除しuc001ikn.2ますか? もしそうなら、私はこれがうまくいくと思います：

Rgames> foo
     [,1] [,2]
[1,]    1    7
[2,]    2    8
[3,]    3    9
[4,]    2    3
[5,]    4    1
[6,]    3   10
[7,]    5   11
[8,]    6   12
Rgames> foo[!duplicated(foo[,1])&!(foo[,2]%in%duplicated(foo[,1])),]
     [,1] [,2]
[1,]    1    7
[2,]    2    8
[3,]    3    9
[4,]    5   11
[5,]    6   12

あなたのケースではdf$knowngene1、df$knowngene2列を操作します。

r - 2つの列を比較するデータフレームから列の交差情報を含む行を削除する

1 に答える 1

Related

Reference