私は現在、データ チェックのために NameNode をプールする Oozie Coordinator の問題を解決するための問題に取り組んでいます。ケーススタディとして、Yahoo が毎日 15000 を超えるジョブを実行していることを知りました。そのため、ほとんどのジョブが Data Dependent である場合、NameNode のオーバーヘッドになります。私は現在、基本的に私たち自身のラップトップである 3 ~ 4 個のノードを持つクラスターに取り組んでいます。しかし、私の教授は、自分の研究をこれほど大規模に検証するにはどうすればよいか、と尋ねてきました。私のソリューションがその規模で機能することを証明するために、彼にいくつかの分析を提供する必要があります。同じことをするためのいくつかのオプションを提案してください。