URLでスラッシュされた2つの間のコンテンツを抽出しようとしています。このためにstringr
functionを使用していますstr_match
。
library(stringr)
test <- "http://www.lefigaro.fr/flash-actu/2014/04/08/97001-20140408FILWWW00162-ump-cope-defend-sa-gestion-financiere.php"
私はなんとか完全な文字列を抽出しました:
str_match(test, "http://.*?/.*?/")
[,1]
[1,] "http://www.lefigaro.fr/flash-actu/"
しかし、括弧を追加して文字列内の一致を抽出すると、結果が予期せず変化します。
str_match(test, "http://.*?/(.*?)/")
[,1] [,2]
[1,] "http://www.lefigaro.fr/flash-actu/2014/" "2014"
かっこが正規表現でどのように解釈されるかの問題に違いありません。どんな手掛かり?