これを試して:
m <- c("Hello! #London is gr8. #Wow")
x <- unlist(strsplit(m, " "))
tag <- x[grep("^#", x)]
tag
ここで、次のようなツイートのリストがあると想像してみましょう。
m1 <- c("Hello! #London is gr8. #Wow")
m2 <- c("#Hello! #London is gr8. #Wow")
m3 <- c("#Hello! #London i#s gr8. #Wow")
m4 <- c("Hello! #London is gr8. #Wow ")
m <- list(m1, m2, m3, m4)
あなたは小さな関数を書くことができます:
getTags <- function(tweet) {
x <- unlist(strsplit(tweet, " "))
tag <- x[grep("^#", x)]
return(tag)
}
そしてそれを適用します:
lapply(m, function(tweet) getTags(tweet))
[[1]]
[1] "#London" "#Wow"
[[2]]
[1] "#Hello!" "#London" "#Wow"
[[3]]
[1] "#Hello!" "#London" "#Wow"
[[4]]
[1] "#London" "#Wow"
後付け...
ハッシュ(または句読点を削除)が必要な場合、関数は次のようになります。
getTags <- function(tweet) {
x <- unlist(strsplit(tweet, " "))
tag <- x[grep("^#", x)]
tag <- gsub("#", "", tag)
return(tag)
}
また
getTags <- function(tweet) {
x <- unlist(strsplit(tweet, " "))
tag <- x[grep("^#", x)]
tag <- gsub("[[:punct:]]", "", tag)
return(tag)
}