pdftotext
(コマンドラインツール)を介してPDFスクレイピングのファイルである文字ベクトルがあります。
すべてが(幸いにも)うまく並んでいます。ただし、ベクトルには、正規表現を回避するタイプの空白が含まれています。
> test
[1] "Address:" "Clinic Information:" "Store " "351 South Washburn" "Aurora Quick Care"
[6] "Info" "St. Oshkosh, WI 54904" "Phone: 920‐232‐0718" "Pewaukee"
> grepl("[0-9]+ [A-Za-z ]+",test)
[1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
> dput(test)
c("Address:", "Clinic Information:", "Store ", "351 South Washburn",
"Aurora Quick Care", "Info", "St. Oshkosh, WI 54904", "Phone: 920‐232‐0718",
"Pewaukee")
> test.pasted <- c("Address:", "Clinic Information:", "Store ", "351 South Washburn",
+ "Aurora Quick Care", "Info", "St. Oshkosh, WI 54904", "Phone: 920‐232‐0718",
+ "Pewaukee")
> grepl("[0-9]+ [A-Za-z ]+",test.pasted)
[1] FALSE FALSE FALSE TRUE FALSE FALSE FALSE FALSE FALSE
> Encoding(test)
[1] "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown"
> Encoding(test.pasted)
[1] "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "UTF-8" "unknown"
明らかにdput
、以下の質問のように、に割り当てられていない文字がいくつかあります。
ベクトル全体をコピーして貼り付けることができません...この空白以外の空白を検索して破棄するにはどうすればよいですか?
編集
答えはいたるところにあるので、明らかに私は明確にさえ近づいていませんでした。さらに単純なテストケースを次に示します。
> grepl("Clinic Information:", test[2])
[1] FALSE
> grepl("Clinic Information:", "Clinic Information:") # Where the second phrase is copy/pasted from the screen
[1] TRUE
画面と出力に印刷された「Clinic」と「Information」の間に1つのスペースがありますがdput
、文字列に含まれるものはすべて標準のスペースではありません。私の目標は、これを排除して、その要素を適切にgrepできるようにすることです。