emr で Jupyter ノートブックを使用して、大量のデータを処理しています。データの処理中に次のエラーが表示されます。
An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe.
: org.apache.spark.SparkException: Job aborted due to stage failure: Total size of serialized results of 108 tasks (1027.9 MB) is bigger than spark.driver.maxResultSize (1024.0 MB)
spark config で maxResultsSize を更新する必要があるようです。jupyter ノートブックから spark maxResultsSize を設定するにはどうすればよいですか。
すでにこの投稿をチェックしました: Spark 1.4はmaxResultSizeメモリを増やします
また、emr ノートブックでは、spark コンテキストが既に指定されています。spark コンテキストを編集して maxResultsSize を増やす方法はありますか
どんなリードも非常に役に立ちます。
ありがとう