Hadoopカウンターとジョブ視覚化ライブラリ/プロジェクトがあるかどうか疑問に思いました。たとえば、時間の経過とともにプロットされた、各ジョブタイプと開始時刻と終了時刻を示す時間表示。別の例は、時間の経過とともに特定のカウンターをプロットすることです。これは、運用上の洞察、監視、およびアラートに使用できると思います。
1 に答える
注:これはSOに関する私の最初の投稿であるため、3つ以上のURLを投稿することはできません。Markdown形式のすべてのリンクを含む私の投稿については、このGitHubの要点をご覧ください。以下のすべてのイタリック体の項目は、実際にはハイパーリンクです。ご不便おかけしてすみません。-マイケル
今頭に浮かぶオープンソースの視覚化プロジェクトはTwitterAmbroseだけです。この返信で言及したさまざまなツールから、最初にAmbroseを確認することをお勧めします。WebUIで次の機能をサポートします。
[AmbroseのWebUI機能]
- 関連するすべてのジョブとその現在の状態のテーブルビュー
- ジョブの依存関係と現在の状態を視覚化するためのコードとグラフの図
- 全体的なスクリプトの進行状況バー
それとは別に、私の個人的な経験は、商用ベンダーからの提供でした。そのうちの2つに名前を付けます。
- CDH4ディストリビューション用のClouderaManager
- M3およびM5ディストリビューション用のMapRのダッシュボード
どちらの製品にも、それらを拡張して独自のOpsツールセットと統合できるAPIが付属しています。Cloudera Managerには評価ライセンスが必要ですが、MapRのダッシュボードは無料のM3ディストリビューションで利用できます。いつものように、それぞれに長所と短所があります。
とはいえ、標準のHadoopを構成して、そのメトリックをGangliaなどの監視ツールに送信することもできます( UC Berkely Gridのライブデモを参照)。基本的に、メトリクスをGangliaにダンプするだけで、Gangliaがさまざまなメトリクスの視覚化/プロットを処理します。小さなHadoopクラスター用にGangliaを構成する方法を説明するオンラインガイドがいくつかあります。Hadoop 2.xを実行している場合は、次世代Hadoopのメトリックシステムが一般的にどのように機能するかについて、HadoopMetrics2とはをご覧ください。
最後に、直接の質問とは少し関係ありませんが、HadoopのJavaAPIを呼び出してカスタムモニターを作成することもできます。通常、Nagiosなどの他のOpsインフラストラクチャツールと互換性のある方法でこれらのカスタムモニターを作成するのは簡単です。たとえば、カスタムモニターの1つがJobTrackerに接続して、24時間以上実行されるMapReduceジョブを検出します(99%で、ジョブが何らかの形で壊れていることがわかります)。メトリックをダンプするツールに応じて、視覚化/グラフを無料で入手できます(上記のGangliaの例を参照)。
これがお役に立てば幸い、マイケル