私たちのラボでは、コンピューティング用に小さなクラスター (9 ノード) をセットアップしました。現在、1 つのノードを slurm コントローラーとして使用しています。つまり、コンピューティングには使用されていません。
私もそれを使用したいのですが、すべての CPU を割り当てたくはありません。スケジューリングやその他のマスター ノード関連のタスクのために 2 つの CPU を空けておきたいと考えています。
slurm.confにそのようなものを書くことは可能ですか:
NodeName=master NodeHostname=master CPUs=10 RealMemory=192000 TmpDisk=200000 State=UNKNOWN
NodeName=node0[1-8] NodeHostname=node0[1-8] CPUs=12 RealMemory=192000 TmpDisk=200000 State=UNKNOWN
PartitionName=mycluster Nodes=node0[1-8],master Default=YES MaxTime=INFINITE State=UP
それとも何かを壊しますか?クラスターはすでに本番環境にあり、何かを壊すのではないかと心配しているため、最初に質問せずにテストしたくありません...上記のパーティションでは、マスターはコントローラーのホスト名で、node0 [1-8]は通常の計算ノード。ご覧のとおり、マスターを使用しないと、クラスターの CPU の 10% が失われます...
前もって感謝します