問題タブ [spark-shell]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
89 参照

performance - 多くのファイルを読み取るときに spark.read.load(string*) を並列化する方法はありますか?

spark-shell (spark 2.4.4) で simple を実行すると、spark.read.format(xyz).load("a","b","c",...)spark が単一の ipc クライアント (または「スレッド」) を使用してファイル a、b、c、... を順番にロードするように見えることに気付きました (これらは hdfs へのパスです)。

これは期待されていますか?

私が尋ねている理由は、私の場合、50K ファイルをロードしようとしていて、シーケンシャル ロードに時間がかかるためです。

ありがとう

PS、ソースコードで確認しようとしていますが、これがそれであるかどうかはわかりません: https://github.com/apache/spark/blob/branch-2.4/sql/core/src/main/scala/ org/apache/spark/sql/DataFrameReader.scala#L180

0 投票する
2 に答える
64 参照

scala - 重複する値を含むデータフレームの n 行をマージする

以下のようなデータフレームがあります

行 1 と 5 に共通の l1 がある場合、これら 2 つを Id=1 の 1 つの行としてマージする必要があります。同様に、行 2 と 3 には共通の l5 があるため、これら 2 つを Id=2 の 1 つの行としてマージする必要があり、行 4 は他の行と重複していないため変更しないでください。

出力を以下のようにしたい

私はspark 2.3を使用しています

0 投票する
0 に答える
76 参照

apache-spark - 私のpysparkは端末では起動しませんでしたが、jupyterノートブックで起動しました

少し前にpyspark、端末に入力したとき。

端末は最終的に...ええと...次のようになります:

some information

>>>

しかし、今ではjupyterノートブックから自動的に開始されます。

この現象はspark-3.0.0-preview2-bin-hadoop3.2

多くのバージョンのsparkを使用しました。

上記の現象は私の設定ミスによるものですか、それともスパークエディションのアップデートによるものですか?

ご協力いただきありがとうございます。

0 投票する
1 に答える
575 参照

scala - リストをscalaのタプルのリストに変換するには?

入力: Val l= List("k1","v1","k2","v2")

望ましい出力:

List(("k1","v1"),("k2","v2"))

zip、folding、slicing を使用してみましたが、うまくいきません。

注: Python で実行しましたが、scala では実行できませんでした。