linux - AWS ec 仮想マシンで Hadoop 1.0 を使用して高可用性を構成する方法

Question

非 VM セットアップでハートビートと仮想 IP メカニズムを使用して、このセットアップを既に構成しています。

Hadoop 1.0.3 を使用しており、Namenode メタデータの共有に共有ディレクトリを使用しています。問題は、Amazon クラウドでは、Linux-ha を使用して高可用性を実現するための仮想 IP のようなものがないことです。

誰もがこれを達成できましたか。必要な手順を教えてください。

score 1 · Accepted Answer

今のところ、hbase で Hbase レプリケーション WAL を使用しています。0.92 以降の Hbase がこれをサポートしています。

クラウド上の Hadoop クラスタリングについては、2.0 リリースが安定するまで待ちます。

以下を使用しました

http://hbase.apache.org/apidocs/org/apache/hadoop/hbase/replication/package-summary.html#requirements

クライアント側では、ネットワークが中断した場合に再接続するために代わりに使用される 2 つのマスターサーバーを持つロジックを追加しました。

これは、相互にバックアップする単純な 2 台のマシンで機能しましたが、サーバーの数が多い場合はお勧めしません。

それが役に立てば幸い。

score 0 · Accepted Answer

Hadoop を高可用性にするためには、2 つの部分があります。最初の、そしてより重要なのは、もちろん NameNode です。起動して構成できるセカンダリ/チェックポイント NameNode があります。これにより、プライマリ NameNode がダウンした場合でも、HDFS を稼働させ続けることができます。次は、すべてのジョブを実行する JobTracker です。私の知る限り (10 か月前のもの)、設定できる JobTracker のバックアップはありません。そのため、JobTracker がダウンした場合に監視し、正しい設定で新しい JobTracker を起動するのはあなた次第です。

linux - AWS ec 仮想マシンで Hadoop 1.0 を使用して高可用性を構成する方法

2 に答える 2

Related

Reference