私たちのアプリは、EC2 インスタンスのクラスターによって支えられています。それらの 1 つは RabbitMQ を実行しており、すべてのインスタンスがメッセージ キューとの間でメッセージを読み書きします。
昨日、トラフィックが大幅に急増するまで、それは完全に機能していました。メッセージング システムに障害が発生し始めました。サービスはキューを作成できましたが、メッセージの書き込みも読み取りもできませんでした。
それは断続的に起こり始め、それからずっと起こりました。
RabbitMQ を再起動しましたが、解決しませんでした。インスタンスを再起動しました:どちらも役に立ちませんでした。完全なスタックを停止してから、再度開始しました。しばらくすると、物事は正常に戻りました。
私が知る限り (確かではありません)、問題はインスタンスが相互に通信できなかったことです (RabbitMQ は特定のポートで他の TCP にメッセージを送信します)。
何が修正されたのかよくわからないので、再発するのではないかと心配しています。そして、どこを見ればいいのかもわかりません。
大量のトラフィックが発生している場合、AWS はインスタンス間の通信をスロットリング/制限していますか?
セキュリティ グループが失敗し始める可能性があります (RabbitMQ を機能させるには、特定の TCP ポートを開く必要があります)。
他の提案はありますか?