4

最初はたくさんのデータを持っていました。しかし、spark-SQL と特に groupBy を使用すると、管理可能なサイズに縮小できます。(単一ノードの RAM に収まります)

すべてのグループ(ノード間で分散) に対して関数を (並行して) 実行するにはどうすればよいですか?

単一グループのデータが単一ノードに収集されるようにするにはどうすればよいですか? たとえば、おそらくlocal matrix計算には使用したいと思いますが、データの局所性に関するエラーに遭遇したくはありません。

4

2 に答える 2