次のコマンドを使用して、データ取り込みのスケールアウトに関する指示に従っています。
find . -type f | xargs -n 1 -P 320 sh -c 'echo $0 `copy_to_distributed_table -C $0 table_name`'
私のクラスターにはマスターと 8 つのワーカーがあり、それぞれに 2 つの SSD があります。テーブルは 320 個のシャードにまたがっています。
データの読み込みに非常に時間がかかっています。平均挿入率は1分あたり約750kのようです。それは正常ですか、それとも高速化する方法はありますか?
考えられる唯一のことは、レプリケーションが有効になっていることです。ロードのためにオフにしてからリセットする必要がありますか?