Spark でのデータフレーム操作のアルゴリズムの複雑さやメモリ消費量はどれくらいですか? ドキュメントに情報が見つかりません。
有用な例の 1 つは、データフレームを別の列 ( withColumn()
) で拡張するときのメモリ/ディスク フットプリントへの回答です: (自動ガベージ コレクションを使用する Python で) 実行する方が良いですtable = table.withColumn(…)
かextended_table = table.withColumn()
、それともほぼ同じメモリを使用しますか?
PS : 両方のテーブルが で永続化されているとしましょうpersist()
。