Python 用の Scikit モジュールを使用して、確率的勾配ブースティングを実装しています。私のデータ セットには 2700 のインスタンスと 1700 の特徴 (x) があり、バイナリ データが含まれています。私の出力ベクトルは 'y' で、0 または 1 (バイナリ分類) が含まれています。私のコードは、
gb = GradientBoostingClassifier(n_estimators=1000,learn_rate=1,subsample=0.5)
gb.fit(x,y)
print gb.score(x,y)
実行すると、1.0 (100%) の精度が得られ、時には 0.46 (46%) 程度の精度が得られました。なぜそのパフォーマンスに大きなギャップがあるのか 、何か考えはありますか?