6 列の R データ フレームがあり、列が 3 つしかない新しいデータ フレームを作成したいと考えています。
データ フレームがで、列、、およびdf
を抽出したい場合、これが私が理解できる唯一のコマンドです。A
B
E
data.frame(df$A,df$B,df$E)
これを行うよりコンパクトな方法はありますか?
列名のベクトルを使用してサブセット化できます。subset()
特に関数、パッケージ、またはアプリケーションでプログラミングする場合は、列名をオブジェクト名のように扱う方法 (例: ) よりも、この方法を強く好みます。
# data for reproducible example
# (and to avoid confusion from trying to subset `stats::df`)
df <- setNames(data.frame(as.list(1:5)), LETTERS[1:5])
# subset
df[c("A","B","E")]
コンマがないことに注意してください (つまり、 ではありませんdf[,c("A","B","C")]
)。これdf[,"A"]
は、データ フレームではなくベクトルを返すためです。ただし、df["A"]
常にデータ フレームを返します。
str(df["A"])
## 'data.frame': 1 obs. of 1 variable:
## $ A: int 1
str(df[,"A"]) # vector
## int 1
data.frameの代わりにベクトルを返すことを指摘してくれたDavid Dorchiesと、元のソリューション (以下) のより良い代替案 (上記) を提案してくれたAntoine Fabriに感謝します。df[,"A"]
# subset (original solution--not recommended)
df[,c("A","B","E")] # returns a data.frame
df[,"A"] # returns a vector
data.frame が呼び出された場合、 dplyrパッケージを使用しdf1
ます。
library(dplyr)
df1 %>%
select(A, B, E)
これは、%>%
パイプなしで次のように書くこともできます。
select(df1, A, B, E)
これがsubset()
関数の役割です。
> dat <- data.frame(A=c(1,2),B=c(3,4),C=c(5,6),D=c(7,7),E=c(8,8),F=c(9,9))
> subset(dat, select=c("A", "B"))
A B
1 1 3
2 2 4
明らかな選択肢が 2 つあります。Joshua Ulrich のdf[,c("A","B","E")]
または
df[,c(1,2,5)]
のように
> df <- data.frame(A=c(1,2),B=c(3,4),C=c(5,6),D=c(7,7),E=c(8,8),F=c(9,9))
> df
A B C D E F
1 1 3 5 7 8 9
2 2 4 6 7 8 9
> df[,c(1,2,5)]
A B E
1 1 3 8
2 2 4 8
> df[,c("A","B","E")]
A B E
1 1 3 8
2 2 4 8
df1 は元のデータ フレームです。
df2 <- subset(df1, select = c(1, 2, 5))
sqldf
Rデータフレームで選択を実行するパッケージを次のように使用することもできます:
df1 <- sqldf("select A, B, E from df")
df1
これにより、列 A、B、E を含むデータ フレームが出力として得られます。
[
およびサブセットは代入できません。
[
1 つの列のみが選択されている場合、ベクトルを返します。
df = data.frame(a="a",b="b")
identical(
df[,c("a")],
subset(df,select="a")
)
identical(
df[,c("a","b")],
subset(df,select=c("a","b"))
)