11

スパークの rdd 配列を取得し、それをランダムに 2 つの rdd に分割して、各 rdd にデータの一部が含まれるようにするにはどうすればよいですか (97% と 3% としましょう)。

リストをシャッフルしてからshuffledList.take((0.97*rddList.count).toInt)

しかし、どうすればrddをシャッフルできますか?

または、リストを分割するより良い方法はありますか?

4

2 に答える 2