ボックスコックス変換など、データセットのターゲット値 (y 列) に適用できる多くの変換について調べた後、線形回帰モデルを効率的にするには、正規分布したターゲット値でトレーニングする必要があることを学びました。 .( https://stats.stackexchange.com/questions/298/in-linear-regression-when-is-it-property-to-use-the-log-of-an-independent-va )
非線形回帰アルゴリズムにも同じことが当てはまるかどうか知りたいです。今のところ、xgboost を使用して、kaggle の人々が対数変換を使用して不均一分散を緩和するのを見てきましたが、正規分布のターゲット値を取得するためにも行われているかどうかについては言及していません。
私はいくつかの調査を試みましたが、Andrew Ng の講義ノート ( http://cs229.stanford.edu/notes/cs229-notes1.pdf ) の 11 ページで、最小二乗法は線形の多くのアルゴリズムで使用されるコスト関数であることがわかりました。および非線形であり、エラーの正規分布を仮定することによって導き出されます。エラーが正規分布する必要がある場合、ターゲット値も同様に分布する必要があると思います。これが当てはまる場合、最小二乗コスト関数を使用するすべての回帰アルゴリズムは、正規分布のターゲット値でより適切に機能するはずです。
xgboost はノード分割に最小二乗コスト関数を使用するため ( http://cilvr.cs.nyu.edu/diglib/lsml/lecture03-trees-boosting.pdf - スライド 13)、ターゲットを変換すると、このアルゴリズムがうまく機能する可能性があります。モデルのトレーニングにボックス コックス変換を使用して値を取得し、予測値を取得するために出力に逆ボックス コックス変換を適用します。これは理論的に言えば、より良い結果をもたらすでしょうか?