java - Hadoop のアキレス腱を軽減する

Question

この Hadoopのチュートリアルを読みましたが、Hadoop にはアキレス腱 (単一障害点) があると書かれていますJobTracker。

JobTracker は、Hadoop MapReduce サービスの単一障害点です。つまり、JobTracker がダウンすると、実行中のすべてのジョブが停止します。

また、この記事NameNodeでは SPOFであると述べています。

Hadoop クラスタの単一障害点は NameNode です。

単一障害点は悪いことですよね？どのような戦略/テクニック/ツール/など. これらの SPOF を回避し、Hadoop を冗長性、フォールトトレラント、回復力のあるものにするために実行できることはありますか (バズワードアラート!)?

score 1 · Accepted Answer

HDFS と Mapreduce は Hadoop のコアコンポーネントです。以前の Apache Hadoop リリースでは、Namenode と Jobtracker は SPOF でした (構成できるインスタンスは 1 つだけです)。この問題は、Hadoop 2.X から修正されています。

ジョブトラッカー HA。

Jobtracker HA は、2 つのノードでモードで 2 つのJobtracker(JT)インスタンスを構成することによって実現できます。Active - Standby1 つの JT がダウンすると、2 番目の Jobtracker がリクエストを処理できるようになります。一度に 1 つのジョブトラッカー (アクティブ) のみがリクエストに対応でき、2 番目の JT (スタンバイ) は読み取り専用モードで実行されます。Jobtracker HA には Zookeeper インスタンスが必要です。フェイルオーバー (切り替え) は、Manaul または Automcatic として構成できます。自動フェイルオーバーと呼ばれる別のプロセスが必要ですFailover Controller (FC). 現在のリリースでは、アクティブな JT が失敗した場合、実行中のすべてのジョブが停止しますが、新しいジョブは自動的に新しい JT に送信されます。この機能は、現在のリリースでは使用できません。

MR2YARN を使用する mapreduce の第 2 世代であり、Resource Manager(RM)YARN のマスターサービスです。RM はアクティブ/スタンバイモードで構成することもできます。RM の障害は、実行中のジョブ/アプリケーションには影響しません。

Namenode HA

Namenode HA は重要なものです。Namenode HA は、アクティブ/スタンバイモードで構成することもできます (最大 2 つの namenode インスタンス)。Quorum based Journaling内部的に Zookeeper を使用する、広く受け入れられている方法です。一度にアクティブになる namenode は 1 つだけです。

Secondary Namenode(SNN)は a ではなく、Standby Namenode(SN)逆もまた同様です。SNN は非 HA 構成で異なる機能を持ちます。SN namenode はチェックポイントを実行するため、Namenode HA セットアップは SNN を必要としません (SNN の機能)。

Processes Namenode HA

アクティブな名前ノード
スタンバイネームノード
Failover controller : スプリットブレインシナリオを回避するためのフェンシング用。
Jounalnodes (最低 3 つのインスタンスが必要) : 名前空間の変更はジャーナルノードに記録され、そこからスタンバイ namenode が読み取られます。スプリットブレインの問題を回避するために、一度に 1 つの名前ノードのみが書き込みを許可されます。

score 1 · Accepted Answer

High availabilityしばらくの間、Hadoop に組み込まれたメカニズムがあります。「Secondary NameNode」、「Backup JobTracker」は、それぞれ対応するホットバックアップとして機能します。

過去の「SPOF」のほとんどは、最近の Hadoop リリースで排除されました。

以下のドキュメントで詳しく説明されています。

それが役に立てば幸い。

java - Hadoop のアキレス腱を軽減する

2 に答える 2

Related

Reference