nodejs API サービスで Cloud SQL プロキシ サイドカーを使用しています。
API リクエストの約 1% で、DB 接続が失敗したことを示すエラーが返されることを除けば、うまく機能しているように見えます。
connect ECONNREFUSED 127.0.0.1:3306
バックエンド ログは、DB に接続しようとしたときに、これが ORM からスローされたことを示しています。
サイドカー ログには何も表示されず、問題の CloudSQL インスタンスには異常は何も表示されません (17/4000 接続、<1% の CPU 使用率、1.5/3.5GiB メモリ使用率、<100KiB イングレス/エグレス/6 時間ウィンドウのタイム スライス)。
何が原因でしょうか?
編集:追加情報:
すべてのポッドが再起動なしで何時間も稼働しているため、断続的な障害は一時的な起動障害ではありません。
ログは、これが 30 日前から断続的に発生していることを示しています。