0

私は HDP 2.6.4 を使用しています。より具体的には Hive 1.2.1 with TEZ 0.7.0 、Spark 2.2.0 です。

私の仕事は簡単です。データを ORC ファイル形式で保存し、Spark を使用してデータを処理します。これを達成するために、私はこれをやっています:

  1. HiveQL を使用して Hive テーブルを作成する
  2. Spark.SQL("select ... from ...") を使用してデータをデータフレームにロードする
  3. データフレームに対する処理

私の質問は次のとおりです。 1. 舞台裏での Hive の役割は何ですか? 2. ハイブをスキップすることはできますか?

4

1 に答える 1