1

php、Hadoop / Hive(シングルノードHadoopクラスター-cloudera vm、8 CPU 4 GB RAM )、ThriftAPIを使用してWebベースの分析ツールを開発しています。Hive thrift APIは、実行に十分な時間がかかるHiveクエリを順番に実行します。これらのハイブクエリにマルチスレッドアプローチを使用して、並列で実行し、実行時間を節約できるようにしようとしています。

conf / mapred-site.xmlファイルのデフォルト値「mapred.tasktracker.map.tasks.maximum」を20に、「mapred.tasktracker.reduce.tasks.maximum」を20に変更しました。また、conf/hive-site.xmlで「 hive.exec.parallel」のデフォルト値をtrueに変更しました。

PHP "curl_multi_exec"を使用して4つのハイブクエリを並列に実行できますが、5つの並列ハイブクエリの実行時間は無限です。前述の変更を行った後でも、同じ結果が得られます。

4つのクエリを並行して実行できますが、5つは実行できません。

だから、ここで私が間違っていることは何ですか?4つの並列クエリでは完全に機能しているのに、5つの並列クエリでは機能していないのはなぜですか?構成ファイルに他の変更を加える必要がありますか?

ありがとう、

4

0 に答える 0