3

説明

次の構造の2つのテーブルがあります(無関係な列が削除されています)。

mysql> explain parts;
+-------------+--------------+------+-----+---------+-------+
| Field       | Type         | Null | Key | Default | Extra |
+-------------+--------------+------+-----+---------+-------+
| code        | varchar(32)  | NO   | PRI | NULL    |       |
| slug        | varchar(255) | YES  |     | NULL    |       |
| title       | varchar(64)  | YES  |     | NULL    |       |
+-------------+--------------+------+-----+---------+-------+
4 rows in set (0.00 sec)

mysql> explain details;
+-------------------+--------------+------+-----+---------+-------+
| Field             | Type         | Null | Key | Default | Extra |
+-------------------+--------------+------+-----+---------+-------+
| sku               | varchar(32)  | NO   | PRI | NULL    |       |
| description       | varchar(700) | YES  |     | NULL    |       |
| part_code         | varchar(32)  | NO   | PRI |         |       |
+-------------------+--------------+------+-----+---------+-------+
3 rows in set (0.00 sec)

テーブルpartsには184147行が含まれ、7278870行がdetails含まれています。fromの列は、テーブルのpart_code列をdetails表します。これらの列はであるため、列を、およびに追加します。私はこれを試しました:codepartsvarcharid int(11)partspart_id int(11)details

mysql> alter table parts drop primary key;
Query OK, 184147 rows affected (0.66 sec)
Records: 184147  Duplicates: 0  Warnings: 0

mysql> alter table parts add column
       id int(11) not null auto_increment primary key first;
Query OK, 184147 rows affected (0.55 sec)
Records: 184147  Duplicates: 0  Warnings: 0

mysql> select id, code from parts limit 5;
+----+-------------------------+
| id | code                    |
+----+-------------------------+
|  1 | Yhk0KqSMeLcfH1KEfykihQ2 |
|  2 | IMl4iweZdmrBGvSUCtMCJA2 |
|  3 | rAKZUDj1WOnbkX_8S8mNbw2 |
|  4 | rV09rJ3X33-MPiNRcPTAwA2 |
|  5 | LPyIa_M_TOZ8655u1Ls5mA2 |
+----+-------------------------+
5 rows in set (0.00 sec)

これで、partsテーブルに正しいデータを含むid列ができました。テーブルにpart_id列を追加した後:details

mysql> alter table details add column part_id int(11) not null after part_code;
Query OK, 7278870 rows affected (1 min 17.74 sec)
Records: 7278870  Duplicates: 0  Warnings: 0

さて、大きな問題はそれに応じてどのように更新part_idするかです。次のクエリ:

mysql> update details d
       join parts p on d.part_code = p.code
       set d.part_id = p.id;

私がそれを殺すまで約30時間走っていました。

両方のテーブルがMyISAMであることに注意してください。

mysql> select engine from information_schema.tables where table_schema = 'db_name' and (table_name = 'parts' or table_name = 'details');
+--------+
| ENGINE |
+--------+
| MyISAM |
| MyISAM |
+--------+
2 rows in set (0.01 sec)

問題の1つは、テーブルにキーをドロップすると、列partsにインデックスがドロップされることであることに気づきました。code反対側では、detailsテーブルに次のインデックスがあります(一部の無関係な列は省略されています)。

mysql> show indexes from details;
+---------+------------+----------+--------------+-------------+-----------+-------------+------------+
| Table   | Non_unique | Key_name | Seq_in_index | Column_name | Collation | Cardinality | Index_type |
+---------+------------+----------+--------------+-------------+-----------+-------------+------------+
| details |          0 | PRIMARY  |            1 | sku         | A         |        NULL | BTREE      |
| details |          0 | PRIMARY  |            3 | part_code   | A         |     7278870 | BTREE      |
+---------+------------+----------+--------------+-------------+-----------+-------------+------------+
2 rows in set (0.00 sec)

私の質問は次のとおりです。

  1. 更新クエリはOKですか、それとも何らかの方法で最適化できますか?
  2. codeテーブルの列にインデックスを追加しpartsますか、クエリは妥当な時間で実行されますか、それとも数日間実行されますか?
  3. (sql / bash / php)スクリプトを作成して、クエリ実行の進行状況を確認するにはどうすればよいですか?

どうもありがとうございます!

4

3 に答える 3

5

質問で述べたように、テーブルにドロップされたインデックスを忘れたpartsので、それらを追加しました。

alter table parts add key code (code);

Puggan Seの回答に触発されて、PHPスクリプトでLIMITonを使用しようとしましたが、MySQLではwithと一緒に使用できません。クエリを制限するために、テーブルに新しい列を追加しました。UPDATELIMITUPDATEJOINdetails

# drop the primary key,
alter table details drop primary key;
# so I can create an auto_increment column
alter table details add id int not null auto_increment primary key;
# alter the id column and remove the auto_increment
alter table details change id id int not null;
# drop again the primary key
alter table details drop primary key;
# add new indexes
alter table details add primary key ( id, sku, num, part_code );

これで、「制限」を使用できます。

update details d
join parts p on d.part_code = p.code
set d.part_id = p.id
where d.id between 1 and 5000;

したがって、完全なPHPスクリプトは次のとおりです。

$started = time();
$i = 0;
$total = 7278870;

echo "Started at " . date('H:i:s', $started) . PHP_EOL;

function timef($s){
    $h = round($s / 3600);
    $h = str_pad($h, 2, '0', STR_PAD_LEFT);
    $s = $s % 3600;
    $m = round( $s / 60);
    $m = str_pad($m, 2, '0', STR_PAD_LEFT);
    $s = $s % 60;
    $s = str_pad($s, 2, '0', STR_PAD_LEFT);
    return "$h:$m:$s";
}

while (1){
    $i++;
    $j = $i * 5000;
    $k = $j + 4999;
    $result = mysql_query("
        update details d
        join parts p on d.part_code = p.code
        set d.part_id = p.id
        where d.id between $j and $k
    ");
    if(!$result) die(mysql_error());
    if(mysql_affected_rows() == 0) die(PHP_EOL . 'Done!');
    $p = round(($i * 5000) / $total, 4) * 100;
    $s = time() - $started;
    $ela = timef($s);
    $eta = timef( (( $s / $p ) * 100) - $s );
    $eq = floor($p/10);
    $show_gt = ($p == 100);
    $spaces = $show_gt ? 9 - $eq : 10 - $eq;
    echo "\r {$p}% | [" . str_repeat('=', $eq) . ( $show_gt ? '' : '>' ) . str_repeat(' ', $spaces) . "] | Elapsed: ${ela} | ETA: ${eta}";
}

そしてここにスクリーンショットがあります:

作業スクリプトのスクリーンショット

ご覧のとおり、全体で5分もかかりませんでした:)ありがとうございました。

PS:後で4999行が残っているのを見つけたので、まだバグがありますがpart_id = 0、すでに手動で行っています。

于 2012-07-13T00:41:44.827 に答える
1
  1. whereとlimitを追加して、チャンクで更新できるようにすることもできます

    update details d
    join parts p on d.part_code = p.code
    set d.part_id = p.id
    WHERE d.part_id =0
    LIMIT 5000;
    
  2. 聖霊降臨祭のインデックスが大幅に高速化され、上記の「1」でsugestenとして1つのクエリを実行すると、5000行の処理にかかる時間を確認できます。

  3. クエリの上のループ

    while(TRUE)
    {
        $result = mysql_query($query);
        if(!$result) die('Failed: ' . mysql_error());
        if(mysql_affected_rows() == 0) die('Done');
        echo '.';
    }
    

EDIT 1 は、結合のエラーを制限するためにクエリを書き直します

サブクエリを使用して、複数のテーブルの更新を回避できます。

UPDATE details
SET part_id = (SELECT id FROM parts WHERE parts.code = details.part_code)
WHERE part_id = 0
LIMIT 5000;
于 2012-07-11T10:24:16.000 に答える
0

更新しようとしているテーブルからインデックスを削除してみてください。MySQLは、行が更新されるたびにインデックスを再作成します。700万レコードの速さで燃えることはありません。

于 2012-07-11T14:55:47.633 に答える