でEC2
セットアップしていr3.8xlarge (32 cores, 244G RAM)
ます。
私のSpark
アプリケーションでは、DataBrickからS3
使用して 2 つの csv ファイルを読み取っています。各 csv には約 500 万行あります。Spark-CSV
私はunionAll
2 つの DataFrame であり、結合された DataFrame で実行していdropDuplicates
ます。
しかし、私が持っているとき、
val conf = new SparkConf()
.setMaster("local[32]")
.setAppName("Raw Ingestion On Apache Spark")
.set("spark.sql.shuffle.partitions", "32")
スパークはより遅い.setMaster("local")
32コアだともっと速くなるんじゃない?