非構造化テキストから部分文字列を抽出しようとしています。たとえば、国名のベクトルがあるとします。
countries <- c("United States", "Israel", "Canada")
この文字値のベクトルを渡して、構造化されていないテキストから正確な一致を抽出するにはどうすればよいですか。
text.df <- data.frame(ID = c(1:5),
text = c("United States is a match", "Not a match", "Not a match",
"Israel is a match", "Canada is a match"))
この例では、目的の出力は次のようになります。
ID text
1 United States
4 Israel
5 Canada
gsub
これまでのところ、一致しないものをすべて削除してから削除してから、空の値を持つ行を削除する作業を行ってきました。str_extract
stringr パッケージからも作業を行っていますが、正規表現の引数を正しく取得することに成功していません。どんな援助でも大歓迎です!