apache-spark - HiveなしでORCファイル形式でSparkを使用することは可能ですか?

翻译自：https://stackoverflow.com/questions/50761787 2018-06-08T13:32:10.310

829 次

0

私は HDP 2.6.4 を使用しています。より具体的には Hive 1.2.1 with TEZ 0.7.0 、Spark 2.2.0 です。

私の仕事は簡単です。データを ORC ファイル形式で保存し、Spark を使用してデータを処理します。これを達成するために、私はこれをやっています：

HiveQL を使用して Hive テーブルを作成する
Spark.SQL("select ... from ...") を使用してデータをデータフレームにロードする
データフレームに対する処理

私の質問は次のとおりです。 1. 舞台裏での Hive の役割は何ですか? 2. ハイブをスキップすることはできますか?

1 に答える 1