以下のスクリプトを実行して、24k レコードのファイルをロードしようとしています。Spark UI で単一のロードに対して 2 つのジョブが表示される理由はありますか?
コード
from pyspark.sql import SparkSession
spark = SparkSession\
.builder\
.appName("DM")\
.getOrCreate()
trades_df = spark.read.format("csv")\
.option("header", "true")\
.option("inferSchema", "true")\
.load("s3://bucket/source.csv")
trades_df.rdd.numPartitions() は 1 です