オブジェクトのリストのペアごとの並べ替えを実行するように LambdaMART モデルをトレーニングしようとしています。私のトレーニング データセットは、50,000 個の 112 次元の特徴ベクトルで構成されています。各機能は、負でない整数によってコード化されます。
ターゲット値は正の整数です (連続していません)。X と Y という 2 つの新しいインスタンスが与えられた場合、X の目標値が Y より大きいかどうかをモデルで予測できるようにしたいと考えています。
これは情報検索アプリケーションではないため、クエリの概念は関係ありません。50,000 のインスタンスすべてが同じ「クエリ」に属しています。
モデルを実行すると、70%/30% のトレーニングと検証の分割を使用するように設定しても、検証セットで逸脱が 0 になり、OOB を実行しようとすると gbm.perf 関数が例外をスローするようですツリーの最適な数を見つける方法。
全体として、このパッケージがこれらの役に立たない名前のパラメーターすべてを使用して何をしているのかについて、私はかなり混乱しています。私が知りたいのは、テスト検証セットを指定してから、ツリー サイズの範囲で検証エラーを最小限に抑えることだけです。多すぎるべきではありませんが、このパッケージでは、どのノブを設定する必要があるかを知るのが非常に難しくなっています...あまりにも多く、透明性を確保して何をしているのかを知るために、自分で実装しようとしています.
暴言を吐いて申し訳ありませんが、このパッケージが意味のある検証結果を返すようにするために、いくつかの助けを借りることができます.