スパークの rdd 配列を取得し、それをランダムに 2 つの rdd に分割して、各 rdd にデータの一部が含まれるようにするにはどうすればよいですか (97% と 3% としましょう)。
リストをシャッフルしてからshuffledList.take((0.97*rddList.count).toInt)
しかし、どうすればrddをシャッフルできますか?
または、リストを分割するより良い方法はありますか?
スパークの rdd 配列を取得し、それをランダムに 2 つの rdd に分割して、各 rdd にデータの一部が含まれるようにするにはどうすればよいですか (97% と 3% としましょう)。
リストをシャッフルしてからshuffledList.take((0.97*rddList.count).toInt)
しかし、どうすればrddをシャッフルできますか?
または、リストを分割するより良い方法はありますか?