類似性のために一致させたい文字列がたくさんあります(各文字列は平均30文字です)。difflib's
SequenceMatcher
シンプルで結果が良かったので、このタスクには最適でした。しかし、私がこれを比較hellboy
してhell-boy
好きなら
>>> sm=SequenceMatcher(lambda x:x=='-','hellboy','hell-boy')
>>> sm.ratio()
0: 0.93333333333333335
私はそのような言葉が100パーセント一致することを望みますratio of 1.0
。上記の関数で指定されたジャンク文字は比較には使用されませんが、最も長い連続した一致するサブシーケンスを見つけるために使用されることを理解しています。比較のためにいくつかの「ジャンク」文字を無視する方法はありSequenceMatcher
ますか?