1

Spark に非常に大きな DataFrame があり、操作に時間がかかりすぎます。

1,000 万行あります。

より迅速にテストできるようにサンプリングしたいので、次のことを試みています。

val redux = df.limit(1000)
redux.cache

これにより、1,000 行しかないデータフレームが保持されると思いました。

しかしredux.count、たとえば、実行にはまだ時間がかかりすぎます (3 分)。

これを 6 GB RAM (DataBricks 製) を搭載した 8 ワーカー ボックスで実行しています。

私は何か間違ったことをしていますか?

ありがとう!

4

1 に答える 1