不均衡なデータセット (~1:4) でランダム フォレスト分類子を実行しようとしています。
次のように imblearn のメソッドを使用しています。
from imblearn.ensemble import BalancedRandomForestClassifier
rf=BalancedRandomForestClassifier(n_estimators=1000,random_state=42,class_weight='balanced',sampling_strategy='not minority')
rf.fit(train_features,train_labels)
predictions=rf.predict(test_features)
RepeatedStratifiedKFold
トレーニング セットとテスト セットの分割は、scikit Learnを使用したクロス検証アプローチ内で実行されます。
ただし、適切な精度スコア (感度、特異性など) を得るために、テスト セットのバランスもとっておく必要があるのではないかと思います。これで私を助けてくれることを願っています。
どうもありがとう!