複数のWebサイトから抽出したレストランのタイミングと住所情報のデータベースの構築に取り組んでいます。同じレストランの情報が複数のWebサイトに存在する可能性があるため。したがって、データベースには、ほぼ重複するコピーがいくつかあります。
レストランの数が多いので、たとえば100000です。次に、新しいエントリごとに、100000 ^ 2の順序で比較して、ほぼ同じ名前のレストラン情報がすでに存在するかどうかを確認する必要があります。ですから、それよりも優れた効率的なアプローチがあるかどうかを尋ねています。ありがとうございました。