1

次のリンクを参照しています:Hive Support for Spark

それは言います:

「Spark SQL は、Hive とは異なるユース ケースをサポートしています。」

なぜそうなるのかはわかりません。これは、Hive ユーザーとして、Spark SQL を介して Spark 実行エンジンを使用できないということですか?

いくつかの質問:

  • Spark SQL は Hive クエリ パーサーを使用します。したがって、理想的にはすべての Hive 機能をサポートします。
  • Hive メタストアを使用しますか?
  • Hive は Spark オプティマイザーを使用しますか、それとも独自のオプティマイザーを構築しますか?
  • Hive は MR ジョブを Spark に変換しますか? それとも他のパラダイムを使用しますか?
4

1 に答える 1

1

Spark SQL は、Spark の機械学習ライブラリ上で SQL 式を使用できるようにすることを目的としています。これにより、高度な分析 (ML など) アプリケーションを構築するためのツール (とりわけ) として SQL を使用できます。これは、バッチ処理/ETL に最適な Hive のドロップイン代替品ではありません。

ただし、Spark が Hive の一般的なデータ処理バックエンドとして機能できるように、上流で進行中の作業もあります。その作業により、特に Spark for Hive のユース ケースを最大限に活用できるようになります。

于 2014-08-27T21:47:30.763 に答える