私は写真のウェブサイトを運営しており、ユーザーは以前に使用したことのないタグも含め、好きなタグを自由に入力できます。その結果、タグの写真が「昆虫」としてタグ付けされ、他の誰かが「昆虫」としてタグ付けされる場合があります。
フリータグ機能を維持したいのですが、そのようなほぼ重複するものを除外する方法が必要です。タグの合計コレクションは現在1,500です。私の考えは、それらすべてをDBからmemに読み込んでから、「容疑者」を表示するアルゴリズムを実行することです。
容疑者の私の考えは、文字列内の文字のx%が同じ(同じ文字と順序)であり、xは構成可能であるということです。私はおそらくこれを行うための本当に非効率的な方法をコーディングすることができますが、この問題に対する既存の解決策があるかどうか疑問に思っていましたか?
編集:言及するのを忘れました:タグを並べ替えるだけでは十分ではありません。重複を見つけるためにセット全体を調べる必要があるからです。