私は研究に Spark 1.4 を使用しており、メモリ設定に苦労しています。私のマシンには 16GB のメモリがあり、ファイルのサイズが 300MB しかないので問題ありません。ただし、関数を使用して Spark RDD を panda データフレームに変換しようとするとtoPandas()
、次のエラーが表示されます。
serialized results of 9 tasks (1096.9 MB) is bigger than spark.driver.maxResultSize (1024.0 MB)
spark-config ファイルを変更してこれを修正しようとしましたが、それでも同じエラーが発生します。これは spark 1.4 の問題だと聞きましたが、これを解決する方法を知っているかどうか疑問に思っています。どんな助けでも大歓迎です。