mysql - 30M レコードテーブルで重複する列を見つける

Question

サブジェクトテーブルには 3,000 万行あります。重複を見つけるためにクエリを実行していますhash。hashと定義されている

 `hash` varchar(50) NOT NULL;

クエリは

SELECT Count(*)
FROM   (SELECT Count(id) `num`,
               `signature`
        FROM   `images`
        WHERE  `hash` IS NOT NULL
        GROUP  BY `hash`
        HAVING `num` > 1) AS `count_table`

Ctrl+Cクエリを中止するように押すまでに、約 5 ～ 7 分かかります。もう一度実行しましたが、それほど長く待つことができませんでした。

どうすればこの結果をより速く得ることができますか?

グループバイをしている間、これは少し遅くなるでしょう。でも8分は長すぎると思います。

score 1 · Accepted Answer

重複エントリの数だけが必要な場合は、試すことができます

select count(*)-count(distinct hash) from images

mysql - 30M レコード テーブルで重複する列を見つける

3 に答える 3

Related

Reference

mysql - 30M レコードテーブルで重複する列を見つける