問題タブ [apache-arrow]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - sparkのメモリを増やしてpyspark `org.apache.arrow.vector.util.OversizedAllocationException`エラーを解決する方法は?
pyspark
ある時点でグループ化された集計 Pandas UDFを使用するジョブを実行しています。これにより、次の(ここでは省略)エラーが発生します。
これは、pandas UDF が受け取るグループの 1 つが巨大であるためだと確信しています。データセットを減らして十分な行を削除すれば、問題なく UDF を実行できます。ただし、元のデータセットで実行したいのですが、192.0 GiB の RAM を搭載したマシンでこのスパーク ジョブを実行しても、同じエラーが発生します。(そして、192.0 GiB は、データセット全体をメモリに保持するのに十分なはずです。)
多くのメモリを必要とするグループ化された集計 Pandas UDF を実行できるように、spark に十分なメモリを与えるにはどうすればよいですか?
たとえば、apache の矢印により多くのメモリを与える、私が見逃しているいくつかのスパーク構成はありますか?