nginx-lego (非推奨であることはわかっています) とノード オートスケーラーに問題があります。HPA を介して手動でスケールアップし、一時的に minReplicas を高い数にパッチする必要がありました。すべてが適切にスケーリングされ、ポッドの増加により新しいノードが追加されました。
トラフィックが急増した後、数値を通常 (非常に低い) に戻したところ、多くの不適切なゲートウェイ 502 エラーが表示されました。nginx-lego ポッドのログを調べたところ、もう存在しないポッドに多くのリクエストが送信されていることがわかりました (接続が拒否されたか、ホストへのルートがありません)。
2018/11/21 17:48:49 [error] 5546#5546: *6908265 connect() failed (113: No route to host) while connecting to upstream, client: 100.112.130.0, server: xxxx.com, request: "GET /public/images/social-instagram.png HTTP/1.1", upstream: "http://X.X.X.X:3000/public/images/social-instagram.png", host: "xxxx.com", referrer: "https://outlook.live.com/"
2018/11/21 17:48:49 [error] 5409#5409: *6908419 connect() failed (113: No route to host) while connecting to upstream, client: 10.5.143.204, server: xxxx.com, request: "GET /public/images/social-instagram.png HTTP/1.1", upstream: "http://X.X.X.X:3000/public/images/social-instagram.png", host: "xxxx.com"
2018/11/21 17:48:49 [error] 5546#5546: *6908420 connect() failed (111: Connection refused) while connecting to upstream, client: 10.5.143.204, server: xxxx.com, request: "GET /public/images/social-facebook.png HTTP/1.1", upstream: "http://X.X.X.X:3000/public/images/social-facebook.png", host: "xxxx.com"
何が間違っている可能性がありますか?
minReplicas にパッチを適用することはおそらく最善の方法ではないと思いますが、スパイクが発生することはわかっていたので、クラスター全体を事前にスケーリングする方法についてより良いアイデアがありませんでした。