Hadoop は初めてで、AWS Elastic Mapreduce で実行しています。
Hadoop でクラスター全体のアトミック カウンターが必要であり、これには Zookeeper を使用するよう提案されました。
Zookeeper は Hadoop スタックの一部であると思いますが (そうですか?)、クラスター全体のカウンターを設定および更新するには、Elastic Mapreduce ジョブからどのようにアクセスすればよいでしょうか?
Hadoop は初めてで、AWS Elastic Mapreduce で実行しています。
Hadoop でクラスター全体のアトミック カウンターが必要であり、これには Zookeeper を使用するよう提案されました。
Zookeeper は Hadoop スタックの一部であると思いますが (そうですか?)、クラスター全体のカウンターを設定および更新するには、Elastic Mapreduce ジョブからどのようにアクセスすればよいでしょうか?
Praveen Sripatiが答えるように、あなたはそうすることができます。しかし、私はいくつかの点を明確にしたくありません:
シーケンスを生成する専用のシーケンスジェネレーターサーバーを使用することをお勧めします(このサービスはZkまたは必要なものを使用できます)。そのようなサービスの一例:https ://github.com/kasabi/H1
Zookeeper は Hadoop スタックの一部だと思います (そうですか?)
ZooKeeper (ZK) は Hadoop スタックの一部ではありません。これは Apache のトップ レベル プロジェクト (TLP) であり、Hadoop から独立しています。そのため、最初に ZK を EC2 にインストールする必要があります。同じ手順を次に示します。
クラスター全体のカウンターを設定および更新するために、Elastic Mapreduce ジョブからアクセスするにはどうすればよいですか?
インストールされた ZK は、ZK API を使用してクラスター全体のカウンターを生成するために使用できます。ここ ( 1および2 ) は、長所と短所を含むアプローチに関する議論です。同じ要件に対する ZKの他の代替手段を次に示します。