問題タブ [spark-shell]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

119 問題

0 投票する

1 に答える

89 参照

performance - 多くのファイルを読み取るときに spark.read.load(string*) を並列化する方法はありますか?

spark-shell (spark 2.4.4) で simple を実行すると、spark.read.format(xyz).load("a","b","c",...)spark が単一の ipc クライアント (または「スレッド」) を使用してファイル a、b、c、... を順番にロードするように見えることに気付きました (これらは hdfs へのパスです)。

これは期待されていますか？

私が尋ねている理由は、私の場合、50K ファイルをロードしようとしていて、シーケンシャルロードに時間がかかるためです。

ありがとう

PS、ソースコードで確認しようとしていますが、これがそれであるかどうかはわかりません: https://github.com/apache/spark/blob/branch-2.4/sql/core/src/main/scala/ org/apache/spark/sql/DataFrameReader.scala#L180

2020-05-19T06:50:05.940

0 投票する

2 に答える

64 参照

scala - 重複する値を含むデータフレームの n 行をマージする

以下のようなデータフレームがあります

行 1 と 5 に共通の l1 がある場合、これら 2 つを Id=1 の 1 つの行としてマージする必要があります。同様に、行 2 と 3 には共通の l5 があるため、これら 2 つを Id=2 の 1 つの行としてマージする必要があり、行 4 は他の行と重複していないため変更しないでください。

出力を以下のようにしたい

私はspark 2.3を使用しています

scala apache-spark spark-shell

2020-05-21T15:12:05.790

0 投票する

0 に答える

76 参照

apache-spark - 私のpysparkは端末では起動しませんでしたが、jupyterノートブックで起動しました

少し前にpyspark、端末に入力したとき。

端末は最終的に...ええと...次のようになります：

some information

>>>

しかし、今ではjupyterノートブックから自動的に開始されます。

この現象はspark-3.0.0-preview2-bin-hadoop3.2

多くのバージョンのsparkを使用しました。

上記の現象は私の設定ミスによるものですか、それともスパークエディションのアップデートによるものですか?

ご協力いただきありがとうございます。

apache-spark pyspark spark-shell

user13268019

2020-07-28T11:17:08.157

0 投票する

1 に答える

575 参照

scala - リストをscalaのタプルのリストに変換するには?

入力： Val l= List("k1","v1","k2","v2")

望ましい出力:

List(("k1","v1"),("k2","v2"))

zip、folding、slicing を使用してみましたが、うまくいきません。

注: Python で実行しましたが、scala では実行できませんでした。

scala spark-shell

2020-08-03T08:54:02.953

1 2 3 4 5 6 7 8 9 10

問題タブ [spark-shell]

performance - 多くのファイルを読み取るときに spark.read.load(string*) を並列化する方法はありますか?

scala - 重複する値を含むデータフレームの n 行をマージする

apache-spark - 私のpysparkは端末では起動しませんでしたが、jupyterノートブックで起動しました

scala - リストをscalaのタプルのリストに変換するには?

Reference