python - Pythonのリスト内のアイテムとのレーベンシュタイン距離

Question

以下の2つのリストがあり、類似したレーベンシュタイン距離が2未満の単語かどうかを比較したいと思います。レーベンシュタイン距離を見つける機能がありますが、パラメータとして2つの単語が必要です。他のリストにない単語を見つけることはできますが、役に立ちません。そして、インデックスごとに移動できますが、以下の場合のように、インデックス 7 に到達すると (ただし、それ以外) すべてが破棄されます。これは、不貞がインデックス 9 と 8 になり、wcop88 が 9 と 10 になるため、それらは比較されないためです。不貞の一部が他のリストの単語に含まれているかどうかを言う方法はありますか?次に、これら2つを確認してください。おそらくそれと一致する

[u'rt', u'cuaimatizada', u's', u'cuaimaqueserespeta', u'forgives', u'any', u'mistake', u'but', u'the', u'infidelity', u'wocp88']
[u'rt', u'cuiamatizada', u's', u'cuimaqueserespeta', u'forgive', u'any', u'mistake', u'except', u'infedelity', u'wcop88']

編集：したがって、私の目標は、チェックする必要がある2つの単語をレーベンシュタイン関数に供給できるようにすることです。この場合、次のペア:

u'cuaimatizada      u'cuiamatizada

u'cuaimaqueserespeta u'cuimaqueserespeta

u'forgives   u'forgive

u'infedelity  u'infidelity

u'wocp88 u'wcop88

事前にどの言葉かわかりません。

score 2 · Accepted Answer

これはあなたが望むものだと思います...しかし、すべての単語を比較します...インデックスの一致だけではありません

 wordpairs = [(w1,w2) for w1 in list1 for w2 in list2 if levenstein(w1,w2) < 2]

>>> matches = [(w1,w2) for w1 in l12 for w2 in l22 if levenshtein(w1,w2) < 2]

[(u'rt', u'rt'), (u's', u's'), (u'cuaimaqueserespeta', u'cuimaqueserespeta'), (u'forgives', u'forgive'), (u'any', u'any'), (u'mistake', u'mistake'), (u'infidelity',u'infedelity')]

python - Pythonのリスト内のアイテムとのレーベンシュタイン距離

1 に答える 1

Related

Reference