Nvidia GPU ノード/スレーブを使用して Kubernetes をセットアップしようとしています。https://docs.nvidia.com/datacenter/kubernetes-install-guide/index.htmlのガイドに従ったところ、ノードをクラスターに参加させることができました。以下の kubeadm サンプル ポッドを試しました。
apiVersion: v1
kind: Pod
metadata:
name: gpu-pod
spec:
containers:
- name: cuda-container
image: nvidia/cuda:9.0-base
command: ["sleep"]
args: ["100000"]
extendedResourceRequests: ["nvidia-gpu"]
extendedResources:
- name: "nvidia-gpu"
resources:
limits:
nvidia.com/gpu: 1
affinity:
required:
- key: "nvidia.com/gpu-memory"
operator: "Gt"
values: ["8000"]
Pod がスケジューリングに失敗し、kubectl イベントに次のように表示されます。
4s 2m 14 gpu-pod.15487ec0ea0a1882 Pod Warning FailedScheduling default-scheduler 0/2 nodes are available: 1 Insufficient nvidia.com/gpu, 1 PodToleratesNodeTaints.
AWS EC2 インスタンスを使用しています。マスター ノードの m5.large & スレーブ ノードの g2.8xlarge。ノードを記述すると、「nvidia.com/gpu: 4」も表示されます。手順や構成が不足している場合、誰か助けてもらえますか?