Spark に非常に大きな DataFrame があり、操作に時間がかかりすぎます。
1,000 万行あります。
より迅速にテストできるようにサンプリングしたいので、次のことを試みています。
val redux = df.limit(1000)
redux.cache
これにより、1,000 行しかないデータフレームが保持されると思いました。
しかしredux.count
、たとえば、実行にはまだ時間がかかりすぎます (3 分)。
これを 6 GB RAM (DataBricks 製) を搭載した 8 ワーカー ボックスで実行しています。
私は何か間違ったことをしていますか?
ありがとう!