spark-sql cli を使用して Hive cli シェルを置き換えます。次のコマンドで spark-sql cli を実行します (糸 Hadoop クラスターで使用しており、hive-site.xml は既に /conf にコピーされています)。
.> spark-sql その後、シェルが開かれ、正常に動作します。
そして、次のようなクエリを実行します。
./spark-sql>devicetype ごとに mytable グループから devicetype, count(*) を選択します。
コマンドは正常に実行され、正しい結果が得られます。しかし、パフォーマンスが非常に遅いことに気付きました。
spark ジョブの ui ( http://myhost:4040 ) から、使用済みとマークされた Executor が 1 つしかないことに気付きました。それが理由かもしれません。
そして、spark-sql スクリプトを変更して、exec コマンドに –num-executors 500 を追加しようとしましたが、役に立ちません。
誰でも助けて理由を説明できますか?
ありがとう。