私はこれをそこに捨てて、他の人々の経験がどのようなものであったかを見ようと思った.
作業中のシステムで、キュー内のジョブの処理が停止し、いわば「ジャム」が発生するという問題が発生しています。サービスが再起動されると、ソフトウェアはキューを処理し、すべてが正常に戻ります。
これまでの私の経験では、これらの停止の原因を突き止めることはできません。それと、停止を自分で再現することはできません。キューはさまざまな間隔で失敗し、1 か月連続で実行されることもあれば、1 日に 2 回近く失敗することもあります。それ以来、私は 2 つの異なるベンダーと部門内のさまざまな同僚に関与してきましたが、誰もが困惑しており、数か月間続いています。
私が始めて以来、処理を単一のサーバーに分離し、ベンダーに送信したログを強化しました。どちらも何が問題なのかわかりません。
あちこちでいくつかの設定を更新し、クライアントとサーバーの部分をアップグレードしましたが、私たちが行っていることが全体的なソリューションに貢献しているかどうかはわかりません.
したがって、再現不可能で、ランダムで、テストできないように見える問題があります。
誰かが同様の状況に関与したことがありますか? このような状況を解決するには、どのような方法がありますか?
共有された情報や経験は素晴らしいでしょう。
乾杯、
編集: : ロギングを強化し、すべてのコンポーネントを最新バージョンに更新し、適切なウイルス対策の除外が行われたことを確認しました。これまでのところ、1 か月以上詰まっていません!