正規表現を使用して、データフレーム内のテキストからすべての URL を新しい列に抽出したいと考えています。キーワードを抽出するために使用した古いコードがいくつかあるので、コードを正規表現に適合させようとしています。正規表現を文字列変数として保存し、ここに適用したい:
data$ContentURL <- apply(sapply(regex, grepl, data$Content, fixed=FALSE), 1, function(x) paste(selection[x], collapse=','))
正規表現であることfixed=FALSEがわかるはずgreplですが、Rは正規表現を次のように保存しようとしている方法が好きではありません。
regex <- "http.*?1-\\d+,\\d+"
私のデータは、次のようなデータ フレームに編成されています。
data <- read.table(text='"Content" "date"
1 "a house a home https://www.foo.com" "12/31/2013"
2 "cabin ideas https://www.example.com in the woods" "5/4/2013"
3 "motel is a hotel" "1/4/2013"', header=TRUE)
うまくいけば、次のようになります。
Content date ContentURL
1 a house a home https://www.foo.com 12/31/2013 https://www.foo.com
2 cabin ideas https://www.example.com in the woods 5/4/2013 https://www.example.com
3 motel is a hotel 1/4/2013