3

emr で Jupyter ノートブックを使用して、大量のデータを処理しています。データの処理中に次のエラーが表示されます。

An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe.
: org.apache.spark.SparkException: Job aborted due to stage failure: Total size of serialized results of 108 tasks (1027.9 MB) is bigger than spark.driver.maxResultSize (1024.0 MB)

spark config で maxResultsSize を更新する必要があるようです。jupyter ノートブックから spark maxResultsSize を設定するにはどうすればよいですか。

すでにこの投稿をチェックしました: Spark 1.4はmaxResultSizeメモリを増やします

また、emr ノートブックでは、spark コンテキストが既に指定されています。spark コンテキストを編集して maxResultsSize を増やす方法はありますか

どんなリードも非常に役に立ちます。

ありがとう

4

1 に答える 1