performance - 多くのファイルを読み取るときに spark.read.load(string*) を並列化する方法はありますか?

翻译自：https://stackoverflow.com/questions/61884853 2020-05-19T06:50:05.940

89 次

spark-shell (spark 2.4.4) で simple を実行すると、spark.read.format(xyz).load("a","b","c",...)spark が単一の ipc クライアント (または「スレッド」) を使用してファイル a、b、c、... を順番にロードするように見えることに気付きました (これらは hdfs へのパスです)。

これは期待されていますか？

私が尋ねている理由は、私の場合、50K ファイルをロードしようとしていて、シーケンシャルロードに時間がかかるためです。

ありがとう

PS、ソースコードで確認しようとしていますが、これがそれであるかどうかはわかりません: https://github.com/apache/spark/blob/branch-2.4/sql/core/src/main/scala/ org/apache/spark/sql/DataFrameReader.scala#L180

performance - 多くのファイルを読み取るときに spark.read.load(string*) を並列化する方法はありますか?

1 に答える 1

Related

Reference