1

私たちのアプリは、EC2 インスタンスのクラスターによって支えられています。それらの 1 つは RabbitMQ を実行しており、すべてのインスタンスがメッセージ キューとの間でメッセージを読み書きします。

昨日、トラフィックが大幅に急増するまで、それは完全に機能していました。メッセージング システムに障害が発生し始めました。サービスはキューを作成できましたが、メッセージの書き込みも読み取りもできませんでした。

それは断続的に起こり始め、それからずっと起こりました。

RabbitMQ を再起動しましたが、解決しませんでした。インスタンスを再起動しました:どちらも役に立ちませんでした。完全なスタックを停止してから、再度開始しました。しばらくすると、物事は正常に戻りました。

私が知る限り (確かではありません)、問題はインスタンスが相互に通信できなかったことです (RabbitMQ は特定のポートで他の TCP にメッセージを送信します)。

何が修正されたのかよくわからないので、再発するのではないかと心配しています。そして、どこを見ればいいのかもわかりません。

  • 大量のトラフィックが発生している場合、AWS はインスタンス間の通信をスロットリング/制限していますか?

  • セキュリティ グループが失敗し始める可能性があります (RabbitMQ を機能させるには、特定の TCP ポートを開く必要があります)。

  • 他の提案はありますか?

4

1 に答える 1

0

RabbitMQ がプロデューサーをスロットリングしていた場合は、ログに表示されるはずです。特に、RabbitMQ がメモリまたはディスク領域の不足を防ぐためにパブリッシャーを調整することを決定した場合。@zaq178miami が指摘しているように、次のリンクを参照してください: http://www.rabbitmq.com/memory.html

于 2014-07-29T14:48:40.380 に答える