SageMaker の組み込み XGBoost アルゴリズムを、次のトレーニング セットと検証セットで使用しています。
上記のデータセットを使用してトレーニングから得られる予測モデルを実行すると、常にまったく同じ結果が得られます。
トレーニングまたは検証データセットに、この動作を説明できる明らかな何かがありますか?
ハイパーパラメータを設定しているコード スニペットの例を次に示します。
{
{"max_depth", "1000"},
{"eta", "0.001"},
{"min_child_weight", "10"},
{"subsample", "0.7"},
{"silent", "0"},
{"objective", "reg:linear"},
{"num_round", "50"}
}
ソースコードは次のとおりです: https://github.com/paulfryer/continuous-training/blob/master/ContinuousTraining/StateMachine/Retrain.cs#L326
どのハイパー パラメーターを調整する必要があるかはわかりません。
このスクリーンショットは、8 つのインデックスで結果を取得していることを示しています。
しかし、11番目のものを追加すると失敗します。これにより、インデックスを削除するのではなく、インデックスをゼロにしてモデルをトレーニングする必要があると考えるようになりました。それでは次にやってみます。 更新:ゼロ値を含めた再トレーニングは役に立たないようです。私はまだ毎回同じ値を取得しています。10 個を超える値を予測エンドポイントに送信できないことに気付きました。そうしないと、「提供されたペイロードを評価できません」というエラーが返されます。そのため、この時点で libsvm 形式を使用すると、問題が増えるだけです。