おおよその文字列一致を使用して、データ ストア内のどのエントリがほぼ重複しているかを調べようとしています。
Pythonで次のアプローチの実装はありますか、それとも自分で試してロールバックする必要がありますか?
ありがとう :)
...
強引なアプローチは、T のすべての部分文字列について P までの編集距離を計算し、距離が最小の部分文字列を選択することです。ただし、このアルゴリズムの実行時間は O(n3 m) になります。
動的計画法を利用したより良い解決策 [3][4] は、問題の別の定式化を使用します。テキスト T の各位置 j とパターン P の各位置 i について、i 番目の最初の文字間の最小編集距離を計算します。パターン Pi と、位置 j で終わる T の部分文字列 Tj',j。
これを多くの文字列に適用する最も効率的な方法は何ですか?