最初はたくさんのデータを持っていました。しかし、spark-SQL と特に groupBy を使用すると、管理可能なサイズに縮小できます。(単一ノードの RAM に収まります)
すべてのグループ(ノード間で分散) に対して関数を (並行して) 実行するにはどうすればよいですか?
単一グループのデータが単一ノードに収集されるようにするにはどうすればよいですか? たとえば、おそらくlocal matrix
計算には使用したいと思いますが、データの局所性に関するエラーに遭遇したくはありません。
最初はたくさんのデータを持っていました。しかし、spark-SQL と特に groupBy を使用すると、管理可能なサイズに縮小できます。(単一ノードの RAM に収まります)
すべてのグループ(ノード間で分散) に対して関数を (並行して) 実行するにはどうすればよいですか?
単一グループのデータが単一ノードに収集されるようにするにはどうすればよいですか? たとえば、おそらくlocal matrix
計算には使用したいと思いますが、データの局所性に関するエラーに遭遇したくはありません。