問題タブ [apache-spark-1.6]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - バイナリフィールドで結合するには?
Scala/Spark では、次のことをしようとしています。
ただし、次のエラーが発生します。
これがバイナリ型であることは事実です:
そのままports("id")
。
次のライブラリを使用しています。
データベース テーブルの読み取りに JDBC を使用していることに注意してください。
この問題を解決する最善の方法は何ですか?
apache-spark - 大きなデータフレームでspark sql操作を最適化するには?
大きなハイブ テーブルがあります (最大 90 億レコード、オーク形式で最大 45 GB)。テーブルのプロファイリングを行うためにspark sqlを使用していますが、これに対して操作を行うには時間がかかりすぎます。入力データ フレーム自体をカウントするだけで、完了するまでに最大 11 分かかります。また、任意の列の最小値、最大値、平均値だけでも、完了するまでに 1 時間半以上かかります。
私は限られたリソース クラスター (利用可能な唯一のものであるため) で作業しています。それぞれ 2 つのコアと 3 つの物理ノードにまたがるエグゼキューターあたり 5GB のメモリを備えた合計 9 つのエグゼキューターです。
これを最適化する方法はありますか、たとえば、同じクラスターで各列のすべての集計関数を実行する時間を少なくとも 30 分未満に短縮するか、リソースを増やすことが唯一の方法ですか?? 個人的にはあまりやりたくないことです。データ フレーム操作を高速化するために私が見つけた 1 つの解決策は、それらをキャッシュすることです。しかし、私の場合、それは実行可能なオプションではないと思います。
私が遭遇した現実世界のシナリオはすべて、この種の負荷に巨大なクラスターを使用しています。
どんな助けでも大歓迎です。kryoシリアライザーを使用してスタンドアロンモードでspark 1.6.0を使用しています。
scala - Spark 1.6 のウィンドウ集約で collect_set および collect_list 関数を使用する方法は?
Spark 1.6.0 / Scala では、または取得する機会はありますcollect_list("colC")
かcollect_set("colC").over(Window.partitionBy("colA").orderBy("colB")
?
apache-spark - Spark プロパティ (Spark 1.6) を介して spark-shell で Hive サポートを有効または無効にする方法は?
spark 1.6 で明示的に spark-shell を介して Hive サポートを無効/有効にするために設定できる構成プロパティはありますか? すべての sqlContext 構成プロパティを取得しようとしましたが、
ただし、ハイブサポートを無効/有効にするために実際にどのプロパティが必要になるかはわかりません。またはこれを行う他の方法はありますか?