hadoop - 誰かがこれを説明できますか:「Spark SQL は Hive とは異なるユースケースをサポートしています。」

Question

次のリンクを参照しています：Hive Support for Spark

それは言います：

「Spark SQL は、Hive とは異なるユースケースをサポートしています。」

なぜそうなるのかはわかりません。これは、Hive ユーザーとして、Spark SQL を介して Spark 実行エンジンを使用できないということですか?

いくつかの質問：

Spark SQL は Hive クエリパーサーを使用します。したがって、理想的にはすべての Hive 機能をサポートします。
Hive メタストアを使用しますか?
Hive は Spark オプティマイザーを使用しますか、それとも独自のオプティマイザーを構築しますか?
Hive は MR ジョブを Spark に変換しますか? それとも他のパラダイムを使用しますか？

score 1 · Accepted Answer

Spark SQL は、Spark の機械学習ライブラリ上で SQL 式を使用できるようにすることを目的としています。これにより、高度な分析 (ML など) アプリケーションを構築するためのツール (とりわけ) として SQL を使用できます。これは、バッチ処理/ETL に最適な Hive のドロップイン代替品ではありません。

ただし、Spark が Hive の一般的なデータ処理バックエンドとして機能できるように、上流で進行中の作業もあります。その作業により、特に Spark for Hive のユースケースを最大限に活用できるようになります。

hadoop - 誰かがこれを説明できますか:「Spark SQL は Hive とは異なるユースケースをサポートしています。」

1 に答える 1

Related

Reference