r - 列内の部分的な文字列の一致に基づいてデータフレームの行を選択する

Question

列内の文字列の部分一致に基づいて、データフレームから行を選択したいと考えています。たとえば、列 'x' には文字列 "hsa" が含まれています。使用sqldf-構文がある場合like-私は次のようにします：

select * from <> where x like 'hsa'.

残念ながら、sqldfその構文はサポートされていません。

または同様に：

selectedRows <- df[ , df$x %like% "hsa-"]

もちろん、これは機能しません。

誰かがこれで私を助けてくれますか?

score 187 · Accepted Answer

%like%現在のアプローチで関数について言及していることに気付きました。それが「data.table」からの参照かどうかはわかりませんが、%like%もしそうなら以下のようにすれば間違いなく使えます。

オブジェクトが a である必要はないことに注意してください(ただし、 s とs のdata.tableサブセット化アプローチは同一ではないことに注意してください)。data.framedata.table

library(data.table)
mtcars[rownames(mtcars) %like% "Merc", ]
iris[iris$Species %like% "osa", ]

その場合は、データをサブセット化するために行と列の位置を混同した可能性があります。

パッケージをロードしたくない場合は、を使用grep()して、一致する文字列を検索してみてください。mtcars行名に「Merc」が含まれるすべての行を照合するデータセットの例を次に示します。

mtcars[grep("Merc", rownames(mtcars)), ]
             mpg cyl  disp  hp drat   wt qsec vs am gear carb
# Merc 240D   24.4   4 146.7  62 3.69 3.19 20.0  1  0    4    2
# Merc 230    22.8   4 140.8  95 3.92 3.15 22.9  1  0    4    2
# Merc 280    19.2   6 167.6 123 3.92 3.44 18.3  1  0    4    4
# Merc 280C   17.8   6 167.6 123 3.92 3.44 18.9  1  0    4    4
# Merc 450SE  16.4   8 275.8 180 3.07 4.07 17.4  0  0    3    3
# Merc 450SL  17.3   8 275.8 180 3.07 3.73 17.6  0  0    3    3
# Merc 450SLC 15.2   8 275.8 180 3.07 3.78 18.0  0  0    3    3

irisまた、文字列を検索するデータセットを使用した別の例osa:

irisSubset <- iris[grep("osa", iris$Species), ]
head(irisSubset)
#   Sepal.Length Sepal.Width Petal.Length Petal.Width Species
# 1          5.1         3.5          1.4         0.2  setosa
# 2          4.9         3.0          1.4         0.2  setosa
# 3          4.7         3.2          1.3         0.2  setosa
# 4          4.6         3.1          1.5         0.2  setosa
# 5          5.0         3.6          1.4         0.2  setosa
# 6          5.4         3.9          1.7         0.4  setosa

あなたの問題について試してみてください：

selectedRows <- conservedData[grep("hsa-", conservedData$miRNA), ]

score 83 · Accepted Answer

文字列内のパターンの有無を検出するstringrstr_detect()パッケージから試してください。

%>%パイプとdplyrパッケージも組み込んだアプローチをfilter()次に示します。

library(stringr)
library(dplyr)

CO2 %>%
  filter(str_detect(Treatment, "non"))

   Plant        Type  Treatment conc uptake
1    Qn1      Quebec nonchilled   95   16.0
2    Qn1      Quebec nonchilled  175   30.4
3    Qn1      Quebec nonchilled  250   34.8
4    Qn1      Quebec nonchilled  350   37.2
5    Qn1      Quebec nonchilled  500   35.3
...

これにより、Treatment 変数に部分文字列「non」が含まれる行のサンプル CO2 データセット (R に付属) がフィルター処理されます。が固定一致を見つけるか正規表現を使用するかを調整できますstr_detect- stringr パッケージのドキュメントを参照してください。

score 22 · Accepted Answer

LIKEsqliteで動作するはずです:

require(sqldf)
df <- data.frame(name = c('bob','robert','peter'),id=c(1,2,3))
sqldf("select * from df where name LIKE '%er%'")
    name id
1 robert  2
2  peter  3

r - 列内の部分的な文字列の一致に基づいてデータ フレームの行を選択する

4 に答える 4

Related

Reference

r - 列内の部分的な文字列の一致に基づいてデータフレームの行を選択する