mysql - 類似度によって行をグループ化する

翻译自：https://stackoverflow.com/questions/17556870 2013-07-09T19:46:37.407

2110 次

MySQL データベースに 850,000 エントリのセットがあります。いくつかのエントリは非常に似ています。

Foobar Lorem
Foobar Ipsum
Foobar Dolor

すべてのエントリを類似性 (たとえば、少なくとも 4 つの等しい文字) でグループ化するにはどうすればよいですか。LIKE演算子を使用して特定の文字列をクエリすることはできません。考えられる類似のエントリがすべてわかっているわけではないからです。

いくつかの興味深いアプローチ (レーベンシュタイン距離など) を見つけましたが、すべての関数には、探すために少なくとも 1 つのパラメーターが必要です。

助言がありますか？

/アップデート

文字列の先頭が似ていれば十分です

1 に答える 1