MySQL データベースに 850,000 エントリのセットがあります。いくつかのエントリは非常に似ています。
Foobar Lorem
Foobar Ipsum
Foobar Dolor
すべてのエントリを類似性 (たとえば、少なくとも 4 つの等しい文字) でグループ化するにはどうすればよいですか。LIKE
演算子を使用して特定の文字列をクエリすることはできません。考えられる類似のエントリがすべてわかっているわけではないからです。
いくつかの興味深いアプローチ (レーベンシュタイン距離など) を見つけましたが、すべての関数には、探すために少なくとも 1 つのパラメーターが必要です。
助言がありますか?
/アップデート
文字列の先頭が似ていれば十分です