私のデータベースには、小さな変更を加えて頻繁に作成および再作成される名前のタイトルがいくつかあります。手動で目で確認すると、スペルがわずかに変更された重複として簡単に識別できます。例えば
リゾートイン、レスオルトイン、リゾートインなど等々。私が探しているのは、重複として検索しているキーワードのパーセンテージ一致を提供するソリューションです。ソースセットは十分に大きくないかもしれませんが、参照セットは何百万ものデータになる可能性があります. したがって、潜在的な mysql の「一致」はスケーラブルではありません。また、リファレンス セットは mysql と sphinx にインデックスが付けられています。現在の複製ロジックは、すべての複製を完全にキャプチャするわけではありません。例えば
モイ カン リゾート モイカン モイ カン リゾート Moeyy-Knn アメリカン フード
私によると、これらはすべて重複しています。しかし、4番目はまったく捕らえられていません。私はそれらが同じように見えることを理解していますが、母音やその他のものを排除することで比較した後のいくつかのパーセンテージが役立つでしょう. ほとんどの場合、推奨される解決策は「php-sphinx」を使用することです。これは、そのほとんどが既に準備ができているか awk であるためです (可能であれば、適度に快適でもあります)。そうでない場合は、オープン ソース (python/perl など) のロジックで十分です。