パーティション分割された spark sql データフレーム (約 300 パーティション) を hdfs に保存しようとしていますが、非常に遅いです:
Joined_table.write.mode('overwrite').partitionBy(target).save(path_out)
これは次のことが原因である可能性があると思います。
INFO ParquetFileReader: 並列処理を使用してアクションを開始しています: 5
この並列処理を構成する方法について何か考えはありますか? このリンクが役立つ場合があります: https://forums.databricks.com/questions/1097/stall-on-loading-many-parquet-files-on-s3.html ですが、Pyspark で newAPIHadoopFile を使用する方法がわかりません。