数百万行のテーブルから重複行を削除しようとしています。重複をチェックしたいフィールドが長すぎて (URL が格納されているため)、UNIQUE
インデックスを配置できません。重複をすばやく削除する方法はありますか?
重複を削除するための推奨される方法:
DELETE t1 FROM table1 AS t1 JOIN table1 AS t2 ON t1.id>t2.id AND t1.name=t2.name;
その仕事を終えることは決してないようですが、それには多くの時間が必要かもしれないと思います.
ここで聞いたアイデアの 1 つはMD5
、インデックス作成と比較のためにハッシュ列を作成することです。これは推奨ルートですか?その場合、スペース/速度を考慮して、この列を切り捨てる必要がありますか?