python - scikit-learn GridSearchCV best_score_の重要性は何ですか

Question

scikit-learn GridSearchCV best_score_はどのように計算されますか?で答えを見ることができます。このスコアが何を意味するかについて。

デシジョンツリーの scikit Learn の例を使用し、スコアリングパラメータのさまざまな値を試しています。

if __name__ == '__main__':
   df = pd.read_csv('/Users/tcssig/Downloads/ad-dataset/ad.data', header=None)
   explanatory_variable_columns = set(df.columns.values)
   response_variable_column = df[len(df.columns.values)-1]
   # The last column describes the targets
   explanatory_variable_columns.remove(len(df.columns.values)-1)
   y = [1 if e == 'ad.' else 0 for e in response_variable_column]
   X = df[list(explanatory_variable_columns)]
   X.replace(to_replace=' *\?', value=-1, regex=True, inplace=True)
   X_train, X_test, y_train, y_test = train_test_split(X, y)
   pipeline = Pipeline([('clf', DecisionTreeClassifier(criterion='entropy'))])
   parameters = {'clf__max_depth': (150, 155, 160), 'clf__min_samples_split': (1, 2, 3), 'clf__min_samples_leaf': (1, 2, 3)}
   grid_search = GridSearchCV(pipeline, parameters, n_jobs=-1,verbose=1, scoring='accuracy')
   grid_search.fit(X_train, y_train)
   print ('Best score: %0.3f' % grid_search.best_score_)
   best_parameters = grid_search.best_estimator_.get_params()
   for param_name in sorted(parameters.keys()):
        print ('\t%s: %r' % (param_name, best_parameters[param_name]))
   predictions = grid_search.predict(X_test)
   print (classification_report(y_test, predictions))

best_score_からまでの範囲のの差分値を取得するたび 0.92に0.96。

このスコアによって、最終的に使用する Scoring パラメータ値が決定されます。また、scikit Learn Web サイトでは、分類が不均衡な場合は精度値を使用しないでください。

score 1 · Accepted Answer

DecisionTreeClassifier で random_state の固定値を渡していないため、best_score_ 値は毎回異なります。どのマシンでもコードを実行するたびに同じ値を取得するには、次のようにします。

random_seed = 77   ##It can be any value of your choice
pipeline = Pipeline([('clf', DecisionTreeClassifier(criterion='entropy', random_state = random_seed))])

これが役立つことを願っています。

python - scikit-learn GridSearchCV best_score_の重要性は何ですか

1 に答える 1

Related

Reference