次の言葉があるとしましょう。
word1 = 'john lennon'
word2 = 'john lenon'
word3 = 'lennon john'
これらの 3 つの単語が同一人物を指していることはほぼ明らかです。次のコードを持つ:
library(stringdist)
>stringdist('john lennon','john lenon',method = 'jw')
[1] 0.06363636
>stringdist('john lennon','lennon john',method = 'qgram')
[1] 0
>stringdist('john lennon','lennon john',method = 'jw')
[1] 0.33
>stringdist('john lennon','john lenon',method = 'qgram')
[1] 1
qgram
この例では、それがうまく機能することは明らかです。しかし、それはその場合だけです。私の質問は、これら2つの方法をどのように組み合わせることができますか?
jw
より良い結果が得られますが、逆の単語を「キャッチ」できません(私の場合、名前と姓と姓)。何かアドバイス?