50

私はこのデータフレームを持っています:

state county city  region  mmatrix  X1 X2 X3    A1     A2     A3      B1     B2     B3      C1      C2      C3

  1      1     1      1     111010   1  0  0     2     20    200       Push      8     12      NA      NA      NA
  1      2     1      1     111010   1  0  0     4     NA    400       Shove      9     NA 

ここで、名前が特定の文字列、たとえば「1」で終わる列 (つまり、A1 と B1) を除外したいと考えています。私はこのコードを書きました:

df_redacted <- df[, -grep("\\1$", colnames(df))]

ただし、これはすべての列を削除するようです。パターンに一致する列 (つまり、「3」またはその他の文字列で終わる列) のみを削除するようにコードを変更するにはどうすればよいですか?

ソリューションは、数値とカテゴリ値の両方を持つデータフレームを処理できる必要があります。

4

6 に答える 6

51

最小限の例に適用し、文字列「A」を検索するだけで、コードは魅力的に機能します。

df <- data.frame(ID = 1:10,
                 A1 = rnorm(10),
                 A2 = rnorm(10),
                 B1 = letters[1:10],
                 B2 = letters[11:20])
df[, -grep("A", colnames(df))]

したがって、問題は正規表現の問題であり、列を削除する方法ではありません。コードを実行すると、エラーが発生します。

df[, -grep("\\3$", colnames(df))]
Error in grep("\\3$", colnames(df)) : 
  invalid regular expression '\3$', reason 'Invalid back reference'

更新: この次の表現を使用してみませんか?

df[, -grep("1$", colnames(df))]
   ID         A2 B2
1   1  2.0957940  k
2   2 -1.7177042  l
3   3 -0.0448357  m
4   4  1.2899925  n
5   5  0.7569659  o
6   6 -0.5048024  p
7   7  0.6929080  q
8   8 -0.5116399  r
9   9 -1.2621066  s
10 10  0.7664955  t
于 2013-03-27T18:17:34.417 に答える
17

data.tableこの問題の解決策を探しているときに、これに出くわしたので、追加の回答として。

library(data.table)
dt <- data.table(df)
drop.cols <- grep("1$", colnames(dt))
dt[, (drop.cols) := NULL]
于 2017-03-30T09:12:38.717 に答える
7

使用できる文字列を除外するには...

 # Search string to exclude
 strng <- "1"
 df <- data.frame(matrix(runif(25,max=10),nrow=5))
 colnames(df) <- paste( "EX" , 1:5 )
 df_red <- df[, -( grep(paste0( strng , "$" ) , colnames(df),perl = TRUE) ) ]

    df
#         EX 1     EX 2        EX 3     EX 4     EX 5
#   1 7.332913 4.972780 1.175947853 6.428073 8.625763
#   2 2.730271 3.734072 6.031157537 1.305951 8.012606
#   3 9.450122 3.259247 2.856123205 5.067294 7.027795
#   4 9.682430 5.295177 0.002015966 9.322912 7.424568
#   5 1.225359 1.577659 4.013616377 5.092042 5.130887

    df_red
#         EX 2        EX 3     EX 4     EX 5
#   1 4.972780 1.175947853 6.428073 8.625763
#   2 3.734072 6.031157537 1.305951 8.012606
#   3 3.259247 2.856123205 5.067294 7.027795
#   4 5.295177 0.002015966 9.322912 7.424568
#   5 1.577659 4.013616377 5.092042 5.130887
于 2013-03-27T18:18:44.743 に答える