18

私は Spark を初めて使用しますが、ドキュメンテーションには、反復アルゴリズムを高速化するために Spark がデータをメモリにロードすると書かれていることがわかりました。

しかし、10 GB のログ ファイルがあり、メモリが 2 GB しかない場合はどうなるでしょうか。Spark はいつものようにログ ファイルをメモリにロードしますか?

4

3 に答える 3

16

この質問は、Spark Web サイト ( https://spark.apache.org/faq.html )の FAQ パネルで十分に回答されていると思います。

  • データセットがメモリに収まらない場合はどうなりますか? 多くの場合、データの各パーティションは小さく、メモリに収まらず、これらのパーティションは一度にいくつか処理されます。メモリに収まらない非常に大きなパーティションの場合、Spark の組み込み演算子はデータセットに対して外部操作を実行します。
  • キャッシュされたデータセットがメモリに収まらない場合はどうなりますか? Spark はそれをディスクにスピルするか、要求されるたびに RAM に収まらないパーティションを再計算することができます。デフォルトでは再計算が使用されますが、これを回避するためにデータセットのストレージ レベルを MEMORY_AND_DISK に設定できます。
于 2015-04-08T15:20:01.177 に答える