問題タブ [spark-hive]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - HiveContext で hive.metastore.warehouse.dir を設定するには?
依存する単体テストケースを作成しようとしていDataFrame.saveAsTable()
ます(ファイルシステムに支えられているため)。Hive ウェアハウス パラメーターをローカル ディスクの場所にポイントします。
デフォルトでは、metastore の埋め込みモードが有効になっている必要があるため、外部データベースは必要ありません。
しかし、HiveContext はこの構成を無視しているようです: saveAsTable() を呼び出すときにまだこのエラーが発生するため:
これは非常に厄介です。なぜまだ起こっているのでしょうか。また、どのように修正すればよいでしょうか。
maven - ハイブを備えたApache Spark
ハイブとの間でデータを読み書きするにはどうすればよいですか? ハイブとやり取りするには、ハイブプロファイルでスパークをコンパイルする必要がありますか? ハイブとやり取りするには、どの Maven 依存関係が必要ですか?
ハイブを操作するために段階的に従うべき適切なドキュメントが見つかりませんでした。
現在、ここに私のコードがあります
次の例外が発生しています
ありがとう
hadoop - Oozie 4.1.0.3 を使用して Spark で Hive クエリを実行する
Java アクションとして Oozie バージョン 4.1.0.3 を使用して Spark で Hive クエリを実行しているときに、テーブルが見つからない例外を取得します。
hdfsパスからhive-site.xmlとhive-default.xmlをコピー
使用した workflow.xml:
情報 yarn.ApplicationMaster: アプリの最終ステータス: FAILED、exitCode: 15、(理由: ユーザー クラスが例外をスローしました: テーブルが見つかりません test_hive_spark_t1)
スレッド "Driver" org.apache.hadoop.hive.ql.metadata.InvalidTableException での例外: テーブルが見つかりません test_hive_spark_t1
scala - テーブル全体をデータフレームにロードせずに、 spark からハイブテーブルのレコードを更新または削除するにはどうすればよいですか?
現在、更新または削除するために、テーブル全体をデータフレームにロードし、更新して新しいデータフレームとして保存し、これを上書きモードで保存しています(以下はコマンドです)。テーブル全体のデータを読み込んで処理する必要がありますか??
objHiveContext.sql("update myTable set columnName='' ") を実行できません。Spark 1.4.1、Hive 1.2.1 を使用しています。
myData.write.format("orc").mode(SaveMode.Overwrite).saveAsTable("myTable")
myData は更新されたデータフレームです。
ハイブ テーブルの 1 つのレコードを更新するためだけに、200 万から 300 万のレコード全体をロードする必要をなくすにはどうすればよいでしょうか。
apache-spark - spark HiveContext によって認識されない Hive テーブルのフィールド区切り文字
event_date Date でパーティション化されたテキストファイルとして格納されたハイブ外部テーブルを作成しました。
Hive テーブルから spark を読み込むときに、特定の形式の csv を指定するにはどうすればよいですか?
環境は
スカラスクリプト
ハイブテーブル
hdfsを見る
PSテーブルをorcとして保存すると、期待どおりにデータの書き込みと読み取りが行われます。
「終了するフィールド」がデフォルトの場合、Spark は期待どおりにデータを読み取ることができるため、これはバグだと思います。
apache-spark - ハイブの GenericUDF が Spark で 2 回実行される
こんにちは、ハイブのgenericUDFを作成して一時関数として登録する際に問題に直面していますが、それを2回呼び出すと、以下のコードを参照してください
次のコードでgenericUDFを作成します
そして、次のステートメントで登録すると
そして、次のコマンドでこの関数を呼び出すと
評価本文のprintステートメントを2回実行します。
apache-spark - Spark から Hive に外部テーブルを作成する
Spark から Hive に外部テーブルを作成しようとしてコンテンツを保存しようとすると、以下のエラーが発生します。
/tmp/hive フォルダーへのアクセス許可を chmod 777 に設定しようとしましたが、成功しませんでした。