私は HDP 2.6.4 を使用しています。より具体的には Hive 1.2.1 with TEZ 0.7.0 、Spark 2.2.0 です。
私の仕事は簡単です。データを ORC ファイル形式で保存し、Spark を使用してデータを処理します。これを達成するために、私はこれをやっています:
- HiveQL を使用して Hive テーブルを作成する
- Spark.SQL("select ... from ...") を使用してデータをデータフレームにロードする
- データフレームに対する処理
私の質問は次のとおりです。 1. 舞台裏での Hive の役割は何ですか? 2. ハイブをスキップすることはできますか?