問題タブ [quantile-regression]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 分位回帰フォレストからの予測間隔は、予想よりも高いカバレッジを持っていますか?
質問:
予測区間のカバレッジが予想よりも広くなる要因は何ですか? 特にrangerパッケージを使用した分位回帰フォレストに関しては?
特定のコンテキスト + REPREX:
私はパースニップとtidymodelsパッケージ スイートを介して分位点回帰フォレストを使用しranger
て、予測間隔を生成しています。私はames
住宅データを使用した例を確認していましたが、以下の例で、ホールドアウト データセットで評価した場合、私の 90% 予測区間が経験的に 97% までカバーされていることに驚きました (トレーニング データのカバー率はさらに高かった)。 .
私のモデルのパフォーマンスがトレーニングセットよりもホールドアウト セットの方が大幅に悪いことを考えると、これはさらに驚くべきことでした。
ライブラリのロード、データ、分割のセットアップ:
モデル ワークフローを指定します。
トレーニング データセットとホールドアウト データセットで予測を行います。
トレーニング データとホールドアウト データの両方のカバレッジ率が、予想される 90% よりもはるかに高いことを示します (経験的には、それぞれ ~98% と ~97% のようです)。
推測:
ranger
パッケージまたは分位点回帰フォレストに関する何かが、分位点を推定する方法で過度に極端であるか、何らかの形で「極端な」方向に過剰適合しています-非常に保守的な予測間隔につながります- これは、このデータセット / モデルに固有の癖です
- 何かが足りないか、何かが正しく設定されていません