プリフェクトとダスクを組み合わせて、GCP に kubernetes クラスターをデプロイしました。通常のシナリオではジョブは正常に実行されますが、データの 2 倍のスケーリングに失敗しています。これまでのところ、メモリ使用量が多いためにスケジューラが停止することに絞り込みました。 Dask スケジューラ メモリ メモリ使用量が 2GB に達するとすぐに、「ハートビートが検出されませんでした」というエラーでジョブが失敗します。
ワーカー メモリと CPU を設定する別のビルド Python ファイルが利用可能です。ゲートウェイ オプションを取得してワーカー メモリをセットアップする dask-gateway パッケージがあります。
options.worker_memory = 32
options.worker_cores = 10
cluster = gateway.new_cluster(options)
cluster.adapt(minimum=4, maximum=20)
dask-scheduler のメモリ割り当てをどこでどのように増やすことができるかわかりません。
Specs:
Cluster Version: 1.19.14-gke.1900
Machine type - n1-highmem-64
Autoscaling set to 6 - 1000 nodes per zone
all nodes are allocated 63.77 CPU and 423.26 GB