apache-spark - グループ化されたデータの並列処理をスパークさせる

翻译自：https://stackoverflow.com/questions/36735730 2016-04-20T06:40:07.107

2650 次

最初はたくさんのデータを持っていました。しかし、spark-SQL と特に groupBy を使用すると、管理可能なサイズに縮小できます。(単一ノードの RAM に収まります)

すべてのグループ(ノード間で分散) に対して関数を (並行して) 実行するにはどうすればよいですか?

単一グループのデータが単一ノードに収集されるようにするにはどうすればよいですか? たとえば、おそらくlocal matrix計算には使用したいと思いますが、データの局所性に関するエラーに遭遇したくはありません。

2 に答える 2