各観測値にターゲット値が 1 に等しい確率を割り当てることにより、バイナリ分類 (応答が 0 または 1) の問題を解決するアルゴリズムがいくつかあります。すべてのアルゴリズムは、N が観測値の数である対数損失関数を最小化しようとします。 y_i は実際のターゲット値で、p_i はアルゴリズムによって予測される 1 の確率です。サンプル データを含む R コードを次に示します。
actual.response = c(1,0,0,0,1)
prediction.df = data.frame(
method1 = c(0.5080349,0.5155535,0.5338271,0.4434838,0.5002529),
method2 = c(0.5229466,0.5298336,0.5360780,0.4217748,0.4998602),
method3 = c(0.5175378,0.5157711,0.5133765,0.4372109,0.5215695),
method4 = c(0.5155535,0.5094510,0.5201827,0.4351625,0.5069823)
)
log.loss = colSums(-1/length(actual.response)*(actual.response*log(prediction.df)+(1-actual.response)*log(1-prediction.df)))
サンプル コードは、各アルゴリズムのログ損失を示します。
method1 method3 method2 method4
0.6887705 0.6659796 0.6824404 0.6719181
ここで、このアルゴリズムを組み合わせて、ログの損失をさらに最小限に抑えたいと考えています。私のためにこれを行うことができるRパッケージはありますか? この種の問題を解決するアルゴリズム、記事、本、または研究論文への参照を歓迎します。最終結果として、各クラスの予測確率を取得し、プレーンな 0,1 応答に注意してください。