2

GCP -> IAM & admin -> Quotas ページで、us-central1 の Service "Compute Engine API NVidia V100 GPUs" は制限が 4 であることを示しています。しかし、以下のコマンドを使用して GCP AI プラットフォームでトレーニング ジョブを送信すると、エラーが発生しました。 V100 GPU の最大許容数は 2 です。 ここに画像の説明を入力

コマンドは次のとおりです。

gcloud beta ai-platform jobs submit training $JOB_NAME \
    --staging-bucket $PACKAGE_STAGING_PATH \
    --job-dir $JOB_DIR  \
    --package-path $TRAINER_PACKAGE_PATH \
    --module-name $MAIN_TRAINER_MODULE \
    --python-version 3.5 \
    --region us-central1 \
    --runtime-version 1.14 \
    --scale-tier custom \
    --master-machine-type n1-standard-8 \
    --master-accelerator count=4,type=nvidia-tesla-v100 \
    -- \
    --data_dir=$DATA_DIR \
    --initial_epoch=$INITIAL_EPOCH \
    --num_epochs=$NUM_EPOCHS

エラーメッセージは次のとおりです。

ERROR: (gcloud.beta.ai-platform.jobs.submit.training) RESOURCE_EXHAUSTED: Quota failure for project [PROJECT_ID]. The request for 4 V100 accelerators exceeds the allowed m
aximum of 16 TPU_V2, 16 TPU_V3, 2 P4, 2 V100, 40 K80, 40 P100, 8 T4. To read more about Cloud ML Engine quota, see https://cloud.google.com/ml-engine/quotas.
- '@type': type.googleapis.com/google.rpc.QuotaFailure
  violations:
  - description: The request for 4 V100 accelerators exceeds the allowed maximum of
      16 TPU_V2, 16 TPU_V3, 2 P4, 2 V100, 40 K80, 40 P100, 8 T4.
    subject: [PROJECT_ID]

Compute EngineのGPU のウェブページには、8 つの NVIDIA® Tesla® V100 GPU がゾーンus-central1-aus-central1-bus-central1-c、およびで利用可能であると記載されていますus-central1-f。私のデフォルト ゾーンは ですus-central1-c

トレーニングに 4 つの V100 GPU をすべて使用するにはどうすればよいですか? ありがとう。

更新 1 (2020 年 1 月 14 日):このページでは、リージョンごとのクォータに合わせて増やす必要があるグローバル GPU クォータについて説明しています。しかし、Quota ページのどこにも見つかりませんでした。

Compute Engine のシステムとユーザーを保護するために、新しいプロジェクトにはグローバル GPU 割り当てがあり、サポートされているゾーンで作成できる GPU の総数が制限されます。GPU クォータをリクエストするときは、各リージョンで作成する GPU モデルのクォータと、すべてのゾーンのすべてのタイプの GPU の合計数に対する追加のグローバル クォータをリクエストする必要があります。

更新 2 (2020 年 1 月 14 日): GCP に連絡して、リージョンの割り当てに合わせてグローバル GPU の割り当てを増やしました。一部のプロジェクトではこれが必要ですが、私のプロジェクトではそれを行う必要はないと彼らは答えました。

4

2 に答える 2