問題タブ [spark-hive]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - HIVE がデータを返すときに SparkSQL クエリが機能しないのはなぜですか
次のようなレコードを含む blob ストレージに多数の csv ファイルが保存されています。
次のコマンドで外部ハイブテーブルを作成しました
1か月分のデータに対して、以下のような多くのパーティションを追加することができました
テーブルには約135,733,286のレコードがあり、少なくとも次の Hive Query はそうselect count(*) from my_history
言っています。
現在、次の2つの問題があります。
1.Jupyter がハングする
このようなクエリを実行すると、hiveContext.sql("select count(*) from my_history").show()
結果は得られず、例外もありません。ハイブから同じものを実行すると、400秒以上の長い時間の後に結果として135,733,286が得られます。
2. 遅い結果
このようなHiveで単純な重複クエリを試しました
結果を返すのに 450 秒近くかかります。HDInsight クラスターに 60 近くのコアがあるため、その時間のほんの一部で結果が返されると予想していました。Jupyter から再度実行しても結果は得られず、同じクエリを複数回実行してもパフォーマンスが向上しました。これは、Spark が次のクエリの rdd をキャッシュすることを読んだためです。
ここで何が欠けていますか?
ありがとうキラン
maven - Apache spark Hive、実行可能 JAR (Maven シェード付き)
Apache Spark Hive を使用して apache-spark アプリケーションを構築しています。これまでのところ、すべて問題ありませんでした。Intellij IDEA でテストとアプリケーション全体を実行し、maven を使用してすべてのテストを一緒に実行しました。
ここで、bash からアプリケーション全体を実行し、ローカルの単一ノード クラスターで実行したいと考えています。私は maven-shade-plugin を使用して、単一の実行可能 JAR をビルドしています。
SparkContext から新しい HiveContext を作成しようとすると、アプリケーションがクラッシュします。スローされた例外は、datanucleus とそのプラグイン システムに何らかの問題があるため、Hive がメタストアを作成できないことを示しています。datanucleus プラグイン システムを日陰で実行する方法について、いくつかの質問に従おうとしましたが、うまくいきませんでした。例: Datanucleus、JDO、および実行可能 jar - どうすればよいですか?
ハイブを使用してアプリケーションの実行可能 JAR を構成し、bash から実行する最良の方法は何ですか? おそらく、datanucleus とそのプラグイン システムの設定でしょうか。
pom.xml
サンプルコード
スローされた例外
前もって感謝します
hive - ハイブで string を bigint にキャストすると不完全なデータが返される
ハイブで完全な値を取得するにはどうすればよいですか? つまりcast('0024' as bigint)
、与えるだけですが、出力として24
完全なものが必要です。0024
これを行う方法はありますか?
scala - Scala から実行したときに Spark Hivecontext がクエリを実行しない
ハイブコンテキストを作成し、そこからハイブクエリを実行するScalaプログラムがあります。ハイブ クエリは、複数テーブルの挿入クエリです。クエリは正常に実行されるが、出力が生成されていないという問題に直面しています。興味深いことに、複数テーブルの inert クエリで 1 つのテーブルに挿入すると、クエリは正常に実行されます。つまり、out データを確認できます。例えば:
データを生成していないクエリ:
正常に動作しているクエリ:
エグゼキューターのログを調べたところ、実行されなかったクエリについてエラーは報告されていませんでした。
YARN で Spark 1.5 を実行しています
上記について追加情報が必要な場合はお知らせください。
apache-spark - カスタム ハイブ バインディングを使用したスパーク
1.2 の代わりに現在の (ハイブ 2.1) バインディングでスパークをビルドするにはどうすればよいですか? http://spark.apache.org/docs/latest/building-spark.html#building-with-hive-and-jdbc-support これがどのように機能するかについては言及していません。Spark は Hive 2.x でうまく動作しますか?
hadoop - Hive への書き込み時の Spark Dataframe OOM エラー
Spark データフレーム データを Hive に配置するために使用するアプリケーションがあります。
初めて、アプリケーションは 100 コアと 10 GB のメモリを使用し、大量の 32 Mb チャンクをリークした後、この OutOfMemory エラーを生成します。
その後、100 コアと 20 GB のメモリでアプリケーションを実行すると、別のリーク サイズ (64 Mb) が発生し、続いて同じ OutOfMemory エラーが発生します。
誰でもこの動作を理解するのを手伝ってもらえますか?