さまざまなシステム監視ツールを評価して、1 つを使用して Hadoop クラスターを監視しています。私が感銘を受けたツールの 1 つが collectl です。私は数日以来それをいじっています。
colmux を使用しているときに、collectl によってキャプチャされたメトリックをどのように集計できるかを見つけるのに苦労していますか?
たとえば、Hadoop クラスターに 10 個のノードがあり、それぞれが collectl をサービスとして実行しているとします。colmux を使用すると、各ノードのパフォーマンス メトリックを 1 つのビュー (1 行および複数行の形式) で確認できます。すごい!
しかし、クラスター内のすべてのノードで CPU や IO などの集計を検討している場合はどうなるでしょうか。つまり、各ノードのパフォーマンス メトリックを対応する数値に集計することで、クラスター全体がどのように機能しているかを調べたいと考えています。これにより、ノード レベルではなくクラスター レベルのメトリックが得られます。
どんな助けでも大歓迎です。ありがとう!