apache-spark-sql - ParquetFileReader の並列処理を構成するには?

翻译自：https://stackoverflow.com/questions/37286349 2016-05-17T21:14:07.280

285 次

2

パーティション分割された spark sql データフレーム (約 300 パーティション) を hdfs に保存しようとしていますが、非常に遅いです:

Joined_table.write.mode('overwrite').partitionBy(target).save(path_out)

これは次のことが原因である可能性があると思います。

INFO ParquetFileReader: 並列処理を使用してアクションを開始しています: 5

この並列処理を構成する方法について何か考えはありますか? このリンクが役立つ場合があります: https://forums.databricks.com/questions/1097/stall-on-loading-many-parquet-files-on-s3.html ですが、Pyspark で newAPIHadoopFile を使用する方法がわかりません。

0 に答える 0