モデルを 6 ノードの運用 Azure Kubernetes Service にデプロイしました。
順次推論リクエストは、score.py から予期される応答を取得します。
複数の同時非同期推論が最初のリターン 503 を除くすべてのリクエストをリクエストした場合Too many requests for service {my service name} (overloaded)
。
https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/deployment/production-deploy-to-aks/production-deployの例に基づいて、サービスを構築し、モデルをデプロイしました。 -to-aks.ipynb。
4MB ものサイズのリクエストを送信しています。ささいな小さなリクエストを送るとうまくいくようです。