machine-learning - Pyspark でのオーバーサンプリングまたは SMOTE

翻译自：https://stackoverflow.com/questions/53936850 2018-12-26T20:31:36.490

9782 次

7 つのクラスがあり、レコードの総数は 115 で、このデータに対してランダムフォレストモデルを実行したいと考えていました。しかし、データは高い精度を得るには十分ではありません。だから私はすべてのクラスにオーバーサンプリングを適用して、マジョリティクラス自体がより多くのカウントを取得し、それに応じてマイノリティを取得したいと考えました。これは PySpark で可能ですか?

+---------+-----+
| SubTribe|count|
+---------+-----+
|    Chill|   10|
|     Cool|   18|
|Adventure|   18|
|    Quirk|   13|
|  Mystery|   25|
|    Party|   18|
|Glamorous|   13|
+---------+-----+

machine-learning - Pyspark でのオーバーサンプリングまたは SMOTE

2 に答える 2

Related

Reference