r - R: 文字配列内の特定の文字数を見つける

Question

名前にちょうど 2 つの O が含まれる州を検索したいと考えています。私はこれを試しました：

> data(state)
> index=grep('o.*o',state.name)
> state.name[index]
"Colorado"       "North Carolina" "North Dakota"   "South Carolina" "South Dakota"

問題: 「コロラド」には 3 つの O があり、それは必要ありません。正規表現を修正するにはどうすればよいですか?

また、次の 3 つの O も実行したいと考えています。

> data(state)  
> index=grep('o.*o.*o',state.name)  
> state.name[index]
"Colorado"

これを行う簡単な方法はありますか？

score 3 · Accepted Answer

できるよ：

grep('^([^o]*o[^o]*){2}$', state.name, value = TRUE)
# [1] "North Carolina" "North Dakota"
# [3] "South Carolina" "South Dakota"

grep('^([^o]*o[^o]*){3}$', state.name, value = TRUE)
# [1] "Colorado"

また、GSee が以下で提案しているignore.case = TRUEように、オハイオ、オクラホマ、オレゴンのような大文字の O の州を含めたい場合は追加できます。

score 2 · Accepted Answer

マイケルの反応は間違いなく雄弁ですが、力ずくの方法は次のとおりです。

state.name[sapply(strsplit(tolower(state.name), NULL), function(x) sum(x %in% "o") == 2)]

score 1 · Accepted Answer

一致する 2 つの O 以外に、一致する他の文字が O でないことを確認する必要があります。

grep("^[^o]*o[^o]*o[^o]*$", state.name, value = TRUE)

score 0 · Accepted Answer

?gregexpr を使用したソリューション: 少し見にくいですが、他の正規表現にうまく一般化できます。(オハイオ州の大文字 O を忘れないでください。)

state.name[sapply(state.name,function(x) length(unlist(gregexpr("o|O",x)))) == 2]

score 0 · Accepted Answer

状態名の OS の数をカウントします。

State <- c("North Dakota","Ohio","Colorado","South Dakota")
nos <- nchar(gsub("[^oO]","",State))
State[nos==2]
State[nos==3]

r - R: 文字配列内の特定の文字数を見つける

5 に答える 5

Related

Reference