0

私は最近質問に答えました、そのコメントセクションで私が答えることができなかった別のユーザーからの質問を拾いました。

コードのつづりが間違っていても商品を検索する

正規表現を使用して「大きな」データソースをフィルタリングするあいまい検索パラメーターが与えられた場合、「関連性」または「ベストマッチ」の値をどのように割り当てますか?

フィルタは正しく機能しますが、提供された検索文字列に最も近い値と最も遠い値を識別できるようにフィルタを適応させる方法がわかりません。

この場合、最も近いのは文字列と完全に一致することです(「+」文字が存在しないと仮定すると、まだ一致するものが最も近くなります)。最も遠い、つまり最悪の一致は、正反対の、一致しない文字の最大数になります。

引数を避けるために、使用されているあいまい検索が検索パターンで「+」と「*」の組み合わせを使用していると仮定します。X+HG*UPO+Z*またはそれらの線に沿った何か。

目標は、文字列の長さの比較を使用しないようにすることです。私が答えた質問では、データはとにかく常に同じ長さであることがほぼ保証されていました。

4

1 に答える 1

0

レーベンシュタイン距離、または同様のものを計算できます。ウィキペディアでのあいまい文字列の照合が役立つ場合があります。

于 2012-06-11T13:05:17.520 に答える