random-forest - 前処理を伴う GridSearchCV パイプラインでの SMOTEENN の使用

Question

非常に不均衡なデータセットの分類問題に取り組んでいます。グリッド検索パイプラインで使用しようとしていますSMOTEENNが、この ValueError が引き続き発生します:

ValueError: Invalid parameter randomforestclassifier for estimator Pipeline(memory=None,
         steps=[('preprocessor_X',
                 ColumnTransformer(n_jobs=None, remainder='drop',
                                   sparse_threshold=0.3,
                                   transformer_weights=None,
                                   transformers=[('num',
                                                  Pipeline(memory=None,
                                                           steps=[('scaler',
                                                                   StandardScaler(copy=True,
                                                                                  with_mean=True,
                                                                                  with_std=True))],
                                                           verbose=False),
                                                  ['number_of_participants',
                                                   'count_timely_submission',
                                                   'count_by_self',
                                                   'count_at_ra...
                                                         class_weight='balanced',
                                                         criterion='gini',
                                                         max_depth=None,
                                                         max_features='auto',
                                                         max_leaf_nodes=None,
                                                         max_samples=None,
                                                         min_impurity_decrease=0.0,
                                                         min_impurity_split=None,
                                                         min_samples_leaf=1,
                                                         min_samples_split=2,
                                                         min_weight_fraction_leaf=0.0,
                                                         n_estimators=100,
                                                         n_jobs=None,
                                                         oob_score=False,
                                                         random_state=0,
                                                         verbose=0,
                                                         warm_start=False))],
                          verbose=False))],
         verbose=False). Check the list of available parameters with `estimator.get_params().keys()`.

imblearn からのパイプラインがインポートされている場合、SMOTEENN を GridSearchCV で使用できることがオンラインでわかりました。imblearn のパイプラインを使用していますが、それでもこのエラーが発生します。

SMOTEENNこの問題は、X 変数と y 変数を使用して取得しようとしたときに最初に発生しました。prepare_data()データをX、yに分割する関数があります。SMOTEENNその関数で使用して、バランスのとれたデータを返したいと思いました。ただし、私の機能の 1 つは文字列型であり、OneHotEncoder. 何らかの理由で、SMOTEENN文字列を処理していないようです。したがって、SMOTEENN効果的になるようにパイプラインで使用する必要がありましたpost-preprocessing。

以下にパイプラインコードを貼り付けます。どんな助けや説明も大歓迎です！ありがとうございました！

def ML_RandomF(X, y, random_state, n_folds, oneHot_ftrs, 
               num_ftrs, ordinal_ftrs, ordinal_cats, beta, test_size, score_type):

    scoring = {'roc_auc_score': make_scorer(roc_auc_score), 
               'f_beta': make_scorer(fbeta_score, beta=beta, average='weighted'), 
               'accuracy': make_scorer(accuracy_score)}

    X_other, X_test, y_other, y_test = train_test_split(X, y, test_size=test_size, random_state = random_state)
    kf = StratifiedKFold(n_splits=n_folds,shuffle=True,random_state=random_state)  

    reg = RandomForestClassifier(random_state=random_state, n_estimators=100, class_weight="balanced")
    sme = SMOTEENN(random_state=random_state)

    model = Pipeline([
        ('sampling', sme),
        ('classification', reg)])

    # ordinal encoder
    ordinal_transformer = Pipeline(steps=[
        ('ordinal', OrdinalEncoder(categories = ordinal_cats))])

    # oneHot encoder
    onehot_transformer = Pipeline(steps=[
        ('ordinal', OneHotEncoder(sparse=False, handle_unknown='ignore'))])

    # standard scaler
    numeric_transformer = Pipeline(steps=[
        ('scaler', StandardScaler())])

    preprocessor_X = ColumnTransformer(
        transformers=[
            ('num', numeric_transformer, num_ftrs),
            ('oneH', onehot_transformer, oneHot_ftrs),
            ('ordinal', ordinal_transformer, ordinal_ftrs)])

    pipe = Pipeline(steps=[('preprocessor_X', preprocessor_X), ('model', model)])

    param_grid = {'randomforestclassifier__max_depth': [3,5,7,10], 
                  'randomforestclassifier__min_samples_split': [10,25,40]}
    grid = GridSearchCV(pipe,param_grid=param_grid,
                        scoring=scoring,cv=kf, refit=score_type,
                        return_train_score=True,iid=True, verbose=2, n_jobs=-1)

    grid.fit(X_other, y_other)
    return grid, grid.score(X_test, y_test)

score 0 · Accepted Answer

RandomForestClassifierasという名前を付けましたがclassification、そのパイプラインはmodel次のパイプラインで as という名前になります。param_gridしたがって、次のように変更する必要があります


param_grid = {'model__classification__max_depth': [3,5,7,10], 
              'model__classification__min_samples_split': [10,25,40]}

random-forest - 前処理を伴う GridSearchCV パイプラインでの SMOTEENN の使用

1 に答える 1

Related

Reference