問題タブ [spark-shell]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
performance - 多くのファイルを読み取るときに spark.read.load(string*) を並列化する方法はありますか?
spark-shell (spark 2.4.4) で simple を実行すると、spark.read.format(xyz).load("a","b","c",...)
spark が単一の ipc クライアント (または「スレッド」) を使用してファイル a、b、c、... を順番にロードするように見えることに気付きました (これらは hdfs へのパスです)。
これは期待されていますか?
私が尋ねている理由は、私の場合、50K ファイルをロードしようとしていて、シーケンシャル ロードに時間がかかるためです。
ありがとう
PS、ソースコードで確認しようとしていますが、これがそれであるかどうかはわかりません: https://github.com/apache/spark/blob/branch-2.4/sql/core/src/main/scala/ org/apache/spark/sql/DataFrameReader.scala#L180
scala - 重複する値を含むデータフレームの n 行をマージする
以下のようなデータフレームがあります
行 1 と 5 に共通の l1 がある場合、これら 2 つを Id=1 の 1 つの行としてマージする必要があります。同様に、行 2 と 3 には共通の l5 があるため、これら 2 つを Id=2 の 1 つの行としてマージする必要があり、行 4 は他の行と重複していないため変更しないでください。
出力を以下のようにしたい
私はspark 2.3を使用しています
apache-spark - 私のpysparkは端末では起動しませんでしたが、jupyterノートブックで起動しました
少し前にpyspark
、端末に入力したとき。
端末は最終的に...ええと...次のようになります:
some information
>>>
しかし、今ではjupyterノートブックから自動的に開始されます。
この現象はspark-3.0.0-preview2-bin-hadoop3.2
多くのバージョンのsparkを使用しました。
上記の現象は私の設定ミスによるものですか、それともスパークエディションのアップデートによるものですか?
ご協力いただきありがとうございます。
scala - リストをscalaのタプルのリストに変換するには?
入力:
Val l= List("k1","v1","k2","v2")
望ましい出力:
List(("k1","v1"),("k2","v2"))
zip、folding、slicing を使用してみましたが、うまくいきません。
注: Python で実行しましたが、scala では実行できませんでした。