5 つのノードとアービトレーターを備えた Percona Xtradb クラスターがあります。PHP 開発者の 1 人がクラスターで不適切なクエリを実行し、すべてのノードがクラッシュしました。クラッシュ後、ロギングを実行せずにクラスター全体がクラッシュしたため、エラー ログを収集して実際に何が問題だったのかを知ることができませんでした。
私は常に、単一のクエリがクラスターで実行されると、クラスター内のノードの 1 つだけによって処理されると考えてきました。そのため、クエリが (db サーバーを強制終了するほど) 悪い場合、それを処理している 1 つのノードのみがクラッシュし、クラスターは残りの 4 つのノードで実行されたままになります。
この振る舞いは私たちを当惑させました。特にこれが 2 回目の発生であることから、実際に何が起こっているのかを理解したいと考えています。ノードの 1 つで処理中にクラスターでクエリを実行すると、処理中に問題が発生した場合にクラスター内の他のノードがクラッシュするのはなぜですか?
以下は、my.cnf 構成です。
#
# Default values.
[mysqld_safe]
flush_caches
numa_interleave
#
#
[mysqld]
back_log = 65535
binlog_format = ROW
character_set_server = utf8
collation_server = utf8_general_ci
datadir = /var/lib/mysql
default_storage_engine = InnoDB
expand_fast_index_creation = 1
expire_logs_days = 7
innodb_autoinc_lock_mode = 2
innodb_buffer_pool_instances = 16
innodb_buffer_pool_populate = 1
innodb_buffer_pool_size = 32G # XXX 64GB RAM, 80%
innodb_data_file_path = ibdata1:64M;ibdata2:64M:autoextend
innodb_file_format = Barracuda
innodb_file_per_table
innodb_flush_log_at_trx_commit = 2
innodb_flush_method = O_DIRECT
innodb_io_capacity = 1600
innodb_large_prefix
innodb_locks_unsafe_for_binlog = 1
innodb_log_file_size = 64M
innodb_print_all_deadlocks = 1
innodb_read_io_threads = 64
innodb_stats_on_metadata = FALSE
innodb_support_xa = FALSE
innodb_write_io_threads = 64
log-bin = mysqld-bin
log-queries-not-using-indexes
log-slave-updates
long_query_time = 1
max_allowed_packet = 64M
max_connect_errors = 4294967295
max_connections = 4096
min_examined_row_limit = 1000
port = 3306
relay-log-recovery = TRUE
skip-name-resolve
slow_query_log = 1
slow_query_log_timestamp_always = 1
table_open_cache = 4096
thread_cache = 1024
tmpdir = /db/tmp
transaction_isolation = REPEATABLE-READ
updatable_views_with_limit = 0
user = mysql
wait_timeout = 60
#
# Galera Variable config
wsrep_cluster_address = gcomm://ip_1, ip_2, ip_3,ip_4,ip_4,ip_5
wsrep_cluster_name = cluster_db
wsrep_provider = /usr/lib/libgalera_smm.so
wsrep_provider_options = "gcache.size=4G"
wsrep_slave_threads = 32
wsrep_sst_auth = "user:password"
wsrep_sst_donor = "db1"
#wsrep_sst_method = xtrabackup_throttle
wsrep_sst_method = xtrabackup-v2
#
# XXX You *MUST* change!
server-id = 1