r - 高度な文字列マッチングでデータをサブセット化する方法

Question

一致する文字列に基づいて行を抽出したい次のデータフレームがあります。

> GEMA_EO5
gene_symbol  fold_EO  p_value                           RefSeq_ID      BH_p_value
       KNG1 3.433049 8.56e-28              NM_000893,NM_001102416    1.234245e-24
      REXO4 3.245317 1.78e-27                           NM_020385    2.281367e-24
      VPS29 3.827665 2.22e-25                 NM_057180,NM_016226    2.560770e-22
    CYP51A1 3.363149 5.95e-25              NM_000786,NM_001146152    6.239386e-22
      TNPO2 4.707600 1.60e-23 NM_001136195,NM_001136196,NM_013433    1.538000e-20
      NSDHL 2.703922 6.74e-23              NM_001129765,NM_015922    5.980454e-20
     DPYSL2 5.097382 1.29e-22                           NM_001386    1.062868e-19

したがって、$RefSeq_ID の一致する文字列に基づいて、たとえば 2 つの行を抽出したいと思います。これは、次のようにうまく機能します。

> list<-c("NM_001386", "NM_020385")
> GEMA_EO6<-subset(GEMA_EO5, GEMA_EO5$RefSeq_ID %in% list, drop = TRUE)

> GEMA_EO6

gene_symbol  fold_EO  p_value RefSeq_ID    BH_p_value
      REXO4 3.245317 1.78e-27 NM_020385  2.281367e-24
     DPYSL2 5.097382 1.29e-22 NM_001386  1.062868e-19

しかし、一部の行には複数の RefSeq_ID がカンマで区切られているため、$RefSeq_ID に特定の文字列パターンが含まれているかどうかを確認し、その行をサブセット化する一般的な方法を探しています。

score 15 · Accepted Answer

部分一致を行うには、正規表現を使用する必要があります (「」を参照?grepl)。特定の問題の解決策は次のとおりです。

##Notice that the first element appears in 
##a row containing commas
l = c( "NM_013433", "NM_001386", "NM_020385")

一度に 1 つのシーケンスをテストするには、特定のシーケンス ID を選択するだけです。

R> subset(GEMA_EO5, grepl(l[1], GEMA_EO5$RefSeq_ID))
  gene_symbol fold_EO p_value                           RefSeq_ID BH_p_value
5       TNPO2   4.708 1.6e-23 NM_001136195,NM_001136196,NM_013433  1.538e-20

複数の遺伝子をテストするには、次の|演算子を使用します。

R> paste(l, collapse="|")
[1] "NM_013433|NM_001386|NM_020385"
R> grepl(paste(l, collapse="|"),GEMA_EO5$RefSeq_ID)
[1] FALSE  TRUE FALSE FALSE  TRUE FALSE  TRUE

そう

subset(GEMA_EO5, grepl(paste(l, collapse="|"),GEMA_EO5$RefSeq_ID))

あなたが望むものをあなたに与えるべきです。

score 1 · Accepted Answer

RefSeq_ID別のアプローチは、単一のデータフレームで 2 つのデータベーステーブルを表そうとする試みとして重複エントリを認識することです。したがって、元のテーブルがの場合csv、データを 2 つのテーブルに正規化します

Anno <- cbind(key = seq_len(nrow(csv)), csv[,names(csv) != "RefSeq_ID"])
key0 <- strsplit(csv$RefSeq_ID, ",")
RefSeq <- data.frame(key = rep(seq_along(key0), sapply(key0, length)),
                     ID = unlist(key0))

クエリがテーブルのsubset(選択) であり、その後に Anno との (結合) が続くことを認識します。RefSeqmerge

l <- c( "NM_013433", "NM_001386", "NM_020385")
merge(Anno, subset(RefSeq, ID %in% l))[, -1]

につながる

> merge(Anno, subset(RefSeq, ID %in% l))[, -1]
  gene_symbol  fold_EO  p_value   BH_p_value        ID
1       REXO4 3.245317 1.78e-27 2.281367e-24 NM_020385
2       TNPO2 4.707600 1.60e-23 1.538000e-20 NM_013433
3      DPYSL2 5.097382 1.29e-22 1.062868e-19 NM_001386

おそらく、目標は「マスター」テーブルとマージすることです。

Master <- cbind(key = seq_len(nrow(csv)), csv)
merge(Master, subset(RefSeq, ID %in% l))[,-1]

または類似。

r - 高度な文字列マッチングでデータをサブセット化する方法

2 に答える 2

Related

Reference