7

data.frame で最も頻繁に使用される値の組み合わせを見つけたいと思います。

データの例を次に示します。

dat <- data.frame(age=c(50,55,60,50,55),sex=c(1,1,1,0,1),bmi=c(20,25,30,20,25))

この例で探している結果は、age=55、sex=1、bmi=25 の組み合わせです。これは、列値の最も頻繁な組み合わせであるためです。

私の実際のデータには、約 30000 行と 20 列があります。30000 回の観測からこれら 20 個の値の最も一般的な組み合わせを見つける効率的な方法は何でしょうか?

どうもありがとう!

4

4 に答える 4

1

このようなもの??

> dat[duplicated(dat), ]
  age sex bmi
5  55   1  25

を使用するwhile(おそらく時間がかかる)

複数のケースが重複している別の data.frame を次に示します。

> dat <- data.frame(age=c(50,55,60,50,55, 55, 60),
                   sex=c(1,1,1,0,1, 1,1),
                   bmi=c(20,25,30,20,25, 25,30))
> dat[duplicated(dat), ] # see data.frame
      age sex bmi
    5  55   1  25
    6  55   1  25
    7  60   1  30


# finding the most repeated item
> while(any(duplicated(dat))){
   dat <- dat[duplicated(dat), ]
   #print(dat)
 }

> print(dat)
  age sex bmi
6  55   1  25
于 2013-09-02T09:49:08.153 に答える