spark-shell (spark 2.4.4) で simple を実行すると、spark.read.format(xyz).load("a","b","c",...)
spark が単一の ipc クライアント (または「スレッド」) を使用してファイル a、b、c、... を順番にロードするように見えることに気付きました (これらは hdfs へのパスです)。
これは期待されていますか?
私が尋ねている理由は、私の場合、50K ファイルをロードしようとしていて、シーケンシャル ロードに時間がかかるためです。
ありがとう
PS、ソースコードで確認しようとしていますが、これがそれであるかどうかはわかりません: https://github.com/apache/spark/blob/branch-2.4/sql/core/src/main/scala/ org/apache/spark/sql/DataFrameReader.scala#L180