6

7 つのクラスがあり、レコードの総数は 115 で、このデータに対してランダム フォレスト モデルを実行したいと考えていました。しかし、データは高い精度を得るには十分ではありません。だから私はすべてのクラスにオーバーサンプリングを適用して、マジョリティクラス自体がより多くのカウントを取得し、それに応じてマイノリティを取得したいと考えました。これは PySpark で可能ですか?

+---------+-----+
| SubTribe|count|
+---------+-----+
|    Chill|   10|
|     Cool|   18|
|Adventure|   18|
|    Quirk|   13|
|  Mystery|   25|
|    Party|   18|
|Glamorous|   13|
+---------+-----+
4

2 に答える 2