r - 列の中央値を調べてから、他の列の値を調べますか？（R）

Question

私はこのテーブルを持っています：

Profession Educational_level Number
Doctor     Low               0
Doctor     Medium            5
Doctor     High              8
Nurse      Low               1
Nurse      Medium            8
Nurse      High              3
[...]

中央値の人の教育レベルを調べて、次の表にまとめたいと思います。

Doctor     High
Nurse      Medium
[...]

質問：

Rでこれを行うにはどうすればよいですか？
そしてExcelで？

ありがとう。

score 2 · Accepted Answer

追加のパッケージに依存することがワークフローにとって問題にならない場合は、@PaulHiemstraの回答をお勧めします。それ以外の場合、これはおそらくベースRでそれを行う最も簡単な方法です。

df <- read.csv(text="Profession Educational_level Number
Doctor     Low               0
Doctor     Medium            5
Doctor     High              8
Nurse      Low               1
Nurse      Medium            8
Nurse      High              3", header=TRUE)

results <- by(df, INDICES=dat$Profession, 
   FUN=function(subset) with(subset, Educational_level[which.max(Number)]))
data.frame(names(results), unclass(results))

score 1 · Accepted Answer

職業ごとの教育レベルの中央値を探しているとは思いませんが、モード、つまり最も頻度の高いカテゴリを探しています。これを取得するにddplyは、plyrパッケージから使用できます。

require(plyr)
ddply(df, .(Profession), summarise, 
          mode_educ = Educational_level[which.max(Number)]

ここdfで、はデータを含むdata.frameです。

score 1 · Accepted Answer

Excelでは、次のような「配列数式」を使用できます。

=INDEX(B2:B10,MATCH(1,(A2:A10="Doctor")*(C2:C10=MEDIAN(IF(A2:A10="Doctor",C2:C10))),0))

Ctrl + Shift+Enterで確認

これはあなたの例では機能しますが、本物の中央値の場合、たとえば4人の医師がいた場合、医師の中央値は2番目と3番目の中間であるため、リストに値がない可能性があります。割り当てるレベル？

r - 列の中央値を調べてから、他の列の値を調べますか？（R）

3 に答える 3

Related

Reference