time-complexity - Spark でのデータフレーム操作の時間の複雑さとメモリフットプリントはどれくらいですか?

Question

Spark でのデータフレーム操作のアルゴリズムの複雑さやメモリ消費量はどれくらいですか? ドキュメントに情報が見つかりません。

有用な例の 1 つは、データフレームを別の列 ( withColumn()) で拡張するときのメモリ/ディスクフットプリントへの回答です: (自動ガベージコレクションを使用する Python で) 実行する方が良いですtable = table.withColumn(…)かextended_table = table.withColumn()、それともほぼ同じメモリを使用しますか?

PS : 両方のテーブルがで永続化されているとしましょうpersist()。

score 1 · Accepted Answer

同じ変数または別の変数に代入しても違いはありません。Spark はこれらの割り当てを使用して、指定された操作から系列グラフを構築します。実際の Spark アクションを呼び出すと、系統グラフの操作が実行されます。

.cache()またはを介して中間結果をキャッシュする場合にのみ、追加のメモリが必要になります.persist()。

time-complexity - Spark でのデータフレーム操作の時間の複雑さとメモリ フットプリントはどれくらいですか?

1 に答える 1

Related

Reference

time-complexity - Spark でのデータフレーム操作の時間の複雑さとメモリフットプリントはどれくらいですか?