0

データセット内の文字列をジャロ距離と一致させようとしています。問題は、空白を含む文字列を一致として取得していることです。データは次のとおりです。

df1 <- data.frame(ID1=c("london.inc","USA","UK","ball"," "),ID2=c("london.in","US","UKS","bull"," "), x=c(1:5))
library(stringdist)
df1$jwdist<-stringdist(df1$ID1,df1$ID2,method='jw',useBytes=TRUE,p=0)
y <- subset(df1,df1$jwdist<.2)

     ID1       ID2 x     jwdist
1 london.inc london.in 1 0.03333333
2        USA        US 2 0.11111111
3         UK       UKS 3 0.11111111
4       ball      bull 4 0.16666667
5                      5 0.00000000

空白の一致を処理する方法はありますか? このような出力を期待しています。

  ID1       ID2 x     jwdist
1 london.inc london.in 1 0.03333333
2        USA        US 2 0.11111111
3         UK       UKS 3 0.11111111
4       ball      bull 4 0.16666667
4

0 に答える 0