データセット内の文字列をジャロ距離と一致させようとしています。問題は、空白を含む文字列を一致として取得していることです。データは次のとおりです。
df1 <- data.frame(ID1=c("london.inc","USA","UK","ball"," "),ID2=c("london.in","US","UKS","bull"," "), x=c(1:5))
library(stringdist)
df1$jwdist<-stringdist(df1$ID1,df1$ID2,method='jw',useBytes=TRUE,p=0)
y <- subset(df1,df1$jwdist<.2)
ID1 ID2 x jwdist
1 london.inc london.in 1 0.03333333
2 USA US 2 0.11111111
3 UK UKS 3 0.11111111
4 ball bull 4 0.16666667
5 5 0.00000000
空白の一致を処理する方法はありますか? このような出力を期待しています。
ID1 ID2 x jwdist
1 london.inc london.in 1 0.03333333
2 USA US 2 0.11111111
3 UK UKS 3 0.11111111
4 ball bull 4 0.16666667