7 つのクラスがあり、レコードの総数は 115 で、このデータに対してランダム フォレスト モデルを実行したいと考えていました。しかし、データは高い精度を得るには十分ではありません。だから私はすべてのクラスにオーバーサンプリングを適用して、マジョリティクラス自体がより多くのカウントを取得し、それに応じてマイノリティを取得したいと考えました。これは PySpark で可能ですか?
+---------+-----+
| SubTribe|count|
+---------+-----+
| Chill| 10|
| Cool| 18|
|Adventure| 18|
| Quirk| 13|
| Mystery| 25|
| Party| 18|
|Glamorous| 13|
+---------+-----+