1

Spark でのデータフレーム操作のアルゴリズムの複雑さやメモリ消費量はどれくらいですか? ドキュメントに情報が見つかりません。

有用な例の 1 つは、データフレームを別の列 ( withColumn()) で拡張するときのメモリ/ディスク フットプリントへの回答です: (自動ガベージ コレクションを使用する Python で) 実行する方が良いですtable = table.withColumn(…)extended_table = table.withColumn()、それともほぼ同じメモリを使用しますか?

PS : 両方のテーブルが で永続化されているとしましょうpersist()

4

1 に答える 1

1

同じ変数または別の変数に代入しても違いはありません。Spark はこれらの割り当てを使用して、指定された操作から系列グラフを構築します。実際の Spark アクションを呼び出すと、系統グラフの操作が実行されます。

.cache()またはを介し​​て中間結果をキャッシュする場合にのみ、追加のメモリが必要になります.persist()

于 2016-02-14T18:28:08.343 に答える