分散コンピューティングを支援するサードパーティ プラットフォーム (GigaSpaces) の使用を開始しました。現在解決しようとしている主要な問題の 1 つは、この分散環境でログ ファイルを管理する方法です。現在、以下の設定を行っています。
私たちのプラットフォームは 8 台のマシンに分散されています。各マシンには、java.util.logging を使用して個別のログ ファイルに記録する 12 ~ 15 のプロセスがあります。このプラットフォームの上に、log4j とログを使用してファイルを分離する独自のアプリケーションがあります。また、stdout を別のファイルにリダイレクトして、スレッド ダンプなどをキャッチします。
これにより、約 200 の異なるログ ファイルが作成されます。
現在のところ、これらのファイルの管理を支援するツールはありません。次の場合、これは私たちに深刻な頭痛の種を引き起こします。
どの工程で問題が発生したか事前にわからない場合のトラブルシューティング。この場合、現在、ssh を使用して各マシンにログインし、使用を開始して
grep
います。通常とは異なるログを定期的にチェックして、積極的に対処しようとします。この場合、現在すべてのマシンにログインし、 と を使用してさまざまなログを調べてい
less
ますtail
。アラートの設定。しきい値を超えるイベントに関するアラートの設定を検討しています。これは、200 個のログ ファイルをチェックするのに苦労するようです。
現在、1 秒あたり約 5 つのログ イベントしかありませんが、より多くのコードを新しいプラットフォームに移行するにつれて、それは増加します。
コミュニティに次の質問をしたいと思います。
- さまざまなフレームワークを介して記録された複数のマシンに分散された多くのログ ファイルで、同様のケースをどのように処理しましたか?
- なぜその特定のソリューションを選択したのですか?
- ソリューションはどのように機能しましたか? 何が良いと思い、何が悪いと思いましたか?
どうもありがとう。
アップデート
Splunk の試用版を評価することになりました。私たちはそれがどのように機能するかに非常に満足しており、購入することに決めました. セットアップが簡単で、検索が高速で、技術者向けの豊富な機能があります。同様の状況にある人には、チェックすることをお勧めします。