20

最新の 2.0.1 リリースで apache-sparkの sklearn の http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.StratifiedShuffleSplit.htmlに似たものがあるかどうか興味があります。

これまでのところ、 https://spark.apache.org/docs/latest/mllib-statistics.html#stratified-samplingしか見つかりませんでした。これは、非常に不均衡なデータセットをトレーニング / テスト サンプルに分割するのには適していないようです。

4

4 に答える 4