apache-spark - 十分なメモリがない場合、spark はどうしますか?

翻译自：https://stackoverflow.com/questions/20301661 2013-11-30T14:56:04.937

15445 次

18

私は Spark を初めて使用しますが、ドキュメンテーションには、反復アルゴリズムを高速化するために Spark がデータをメモリにロードすると書かれていることがわかりました。

しかし、10 GB のログファイルがあり、メモリが 2 GB しかない場合はどうなるでしょうか。Spark はいつものようにログファイルをメモリにロードしますか?

3 に答える 3

16

この質問は、Spark Web サイト ( https://spark.apache.org/faq.html )の FAQ パネルで十分に回答されていると思います。

データセットがメモリに収まらない場合はどうなりますか? 多くの場合、データの各パーティションは小さく、メモリに収まらず、これらのパーティションは一度にいくつか処理されます。メモリに収まらない非常に大きなパーティションの場合、Spark の組み込み演算子はデータセットに対して外部操作を実行します。
キャッシュされたデータセットがメモリに収まらない場合はどうなりますか? Spark はそれをディスクにスピルするか、要求されるたびに RAM に収まらないパーティションを再計算することができます。デフォルトでは再計算が使用されますが、これを回避するためにデータセットのストレージレベルを MEMORY_AND_DISK に設定できます。

于 2015-04-08T15:20:01.177 に答える