apache-spark - Spark - データフレームのサイズを縮小してキャッシュする

翻译自：https://stackoverflow.com/questions/40141048 2016-10-19T20:35:03.147

978 次

Spark に非常に大きな DataFrame があり、操作に時間がかかりすぎます。

1,000 万行あります。

より迅速にテストできるようにサンプリングしたいので、次のことを試みています。

val redux = df.limit(1000)
redux.cache

これにより、1,000 行しかないデータフレームが保持されると思いました。

しかしredux.count、たとえば、実行にはまだ時間がかかりすぎます (3 分)。

これを 6 GB RAM (DataBricks 製) を搭載した 8 ワーカーボックスで実行しています。

私は何か間違ったことをしていますか？

ありがとう！

1 に答える 1