1

膨大なデータ負荷で Google の dataproc クラスターで spark ジョブを実行しようとしていました。クラスターは 1 つの Spark ジョブ専用であり、すべてのクラスター リソースが YARN によってそのジョブに割り当てられることを期待しています。

Spark コマンドは、ノードごとに 2 つの実行プログラムを実行し、実行プログラムごとに 3 つのコアを実行するように構成されています。spark ジョブがトリガーされると、YARN ResourceManager は、ノードごとにコンテナーに使用されているワーカー コアの 25% のみを表示します。

ある時点で、列サイズの制限により、Spark ジョブが高負荷のために断続的に失敗します。

エラーはjava.lang.IllegalArgumentException: Cannot grow BufferHolder by size 24 because the size after growing exceeds size limitation 2147483632

参照https://kb.databricks.com/sql/cannot-grow-bufferholder-exceeds-size.html

Sparkでこの問題を解決する方法はありますか?

4

0 に答える 0