問題タブ [apache-spark-1.6]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

111 問題

0 投票する

1 に答える

805 参照

scala - バイナリフィールドで結合するには?

Scala/Spark では、次のことをしようとしています。

ただし、次のエラーが発生します。

これがバイナリ型であることは事実です:

そのままports("id")。

次のライブラリを使用しています。

データベーステーブルの読み取りに JDBC を使用していることに注意してください。

この問題を解決する最善の方法は何ですか?

2017-06-09T14:23:49.577

0 投票する

1 に答える

3837 参照

apache-spark - スレッド「メイン」の例外 java.lang.NoClassDefFoundError: org/apache/spark/sql/SQLContext

IntelliJ 2016.3 バージョンを使用しています。

上記のようにすべての依存関係を正しく言及したにもかかわらず、実行時例外を下回っています。

このWebでさらに調査しました.そして、これは主に不適切なエントリbuld.sbtまたはバージョンの不一致が原因であることがわかりました.しかし、私の場合、上記のようにすべてがうまく見えます. ここでどこが間違っていたのか教えてください。

apache-spark apache-spark-sql noclassdeffounderror apache-spark-1.6

2017-06-20T06:10:20.790

0 投票する

1 に答える

3427 参照

apache-spark - 大きなデータフレームでspark sql操作を最適化するには?

大きなハイブテーブルがあります (最大 90 億レコード、オーク形式で最大 45 GB)。テーブルのプロファイリングを行うためにspark sqlを使用していますが、これに対して操作を行うには時間がかかりすぎます。入力データフレーム自体をカウントするだけで、完了するまでに最大 11 分かかります。また、任意の列の最小値、最大値、平均値だけでも、完了するまでに 1 時間半以上かかります。

私は限られたリソースクラスター (利用可能な唯一のものであるため) で作業しています。それぞれ 2 つのコアと 3 つの物理ノードにまたがるエグゼキューターあたり 5GB のメモリを備えた合計 9 つのエグゼキューターです。

これを最適化する方法はありますか、たとえば、同じクラスターで各列のすべての集計関数を実行する時間を少なくとも 30 分未満に短縮するか、リソースを増やすことが唯一の方法ですか?? 個人的にはあまりやりたくないことです。データフレーム操作を高速化するために私が見つけた 1 つの解決策は、それらをキャッシュすることです。しかし、私の場合、それは実行可能なオプションではないと思います。

私が遭遇した現実世界のシナリオはすべて、この種の負荷に巨大なクラスターを使用しています。

どんな助けでも大歓迎です。kryoシリアライザーを使用してスタンドアロンモードでspark 1.6.0を使用しています。

apache-spark apache-spark-sql spark-dataframe apache-spark-1.6 spark-hive

2017-07-10T14:13:33.767

0 投票する

2 に答える

50840 参照

scala - Spark 1.6 のウィンドウ集約で collect_set および collect_list 関数を使用する方法は?

Spark 1.6.0 / Scala では、または取得する機会はありますcollect_list("colC")かcollect_set("colC").over(Window.partitionBy("colA").orderBy("colB")?

scala apache-spark apache-spark-sql apache-spark-1.6

2017-07-16T17:27:36.747

0 投票する

2 に答える

23869 参照

apache-spark - Spark プロパティ (Spark 1.6) を介して spark-shell で Hive サポートを有効または無効にする方法は?

spark 1.6 で明示的に spark-shell を介して Hive サポートを無効/有効にするために設定できる構成プロパティはありますか? すべての sqlContext 構成プロパティを取得しようとしましたが、

ただし、ハイブサポートを無効/有効にするために実際にどのプロパティが必要になるかはわかりません。またはこれを行う他の方法はありますか？

apache-spark hive apache-spark-sql apache-spark-1.6

2017-07-20T08:46:49.653

1 2 3 4 5 6 7 8 9 10

問題タブ [apache-spark-1.6]

scala - バイナリフィールドで結合するには?

apache-spark - スレッド「メイン」の例外 java.lang.NoClassDefFoundError: org/apache/spark/sql/SQLContext

apache-spark - 大きなデータフレームでspark sql操作を最適化するには?

scala - Spark 1.6 のウィンドウ集約で collect_set および collect_list 関数を使用する方法は?

apache-spark - Spark プロパティ (Spark 1.6) を介して spark-shell で Hive サポートを有効または無効にする方法は?

Reference