hadoop - AWS Elastic Mapreduce ジョブから Zookeeper にアクセスできますか?

Question

Hadoop は初めてで、AWS Elastic Mapreduce で実行しています。

Hadoop でクラスター全体のアトミックカウンターが必要であり、これには Zookeeper を使用するよう提案されました。

Zookeeper は Hadoop スタックの一部であると思いますが (そうですか?)、クラスター全体のカウンターを設定および更新するには、Elastic Mapreduce ジョブからどのようにアクセスすればよいでしょうか?

score 0 · Accepted Answer

Praveen Sripatiが答えるように、あなたはそうすることができます。しかし、私はいくつかの点を明確にしたくありません：

シーケンスを生成する専用のシーケンスジェネレーターサーバーを使用することをお勧めします（このサービスはZkまたは必要なものを使用できます）。そのようなサービスの一例：https ：//github.com/kasabi/H1

score 0 · Accepted Answer

Zookeeper は Hadoop スタックの一部だと思います (そうですか?)

ZooKeeper (ZK) は Hadoop スタックの一部ではありません。これは Apache のトップレベルプロジェクト (TLP) であり、Hadoop から独立しています。そのため、最初に ZK を EC2 にインストールする必要があります。同じ手順を次に示します。

クラスター全体のカウンターを設定および更新するために、Elastic Mapreduce ジョブからアクセスするにはどうすればよいですか?

インストールされた ZK は、ZK API を使用してクラスター全体のカウンターを生成するために使用できます。ここ ( 1および2 ) は、長所と短所を含むアプローチに関する議論です。同じ要件に対する ZKの他の代替手段を次に示します。

2 に答える 2