これは遠回りだと思います……。
私のデータベースには次のフィールドがあります。title, description, date, price, hash
現在、私はこのように MD5 ハッシュを生成し、それを各アイテムmd5($title.$desc.$date.$price)
のhash
フィールドに配置します。これにより、新しいアイテムがデータベースに追加されたときに、同じ詳細を持つアイテムが既に存在するかどうかを簡単かつかなり信頼できる方法で知ることができます。データベース。
私がやりたいのはこれを拡張することで、一致プロセスがもう少しあいまいになります。これは、説明が 1 文字か 2 文字だけ異なるか、価格がわずかに異なる可能性がある、重複したアイテムがデータベースに多数あることが原因です。
データベースは大きく (300 万行)、INNODB です。また、検索から返された類似の結果を除外する方法が提供される場合は、Sphinx を自由に使用できます。