問題タブ [r-ranger]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - ranger をキャレットに使用しようとするとエラーが発生する
すべての説明変数とターゲット変数 (xxx1) を含むデータセット "df_train" があります。さらに、ランダム フォレスト (xxx2 列) をフィッティングするときに使用する重みを含む別のデータセットがあります。3 倍の cv を実装しようとしていますが、何か問題があるようです。クラスの確率について述べていますが、回帰ランダムフォレストに適合させようとしています。残りのエラーの意味がわかりませんでした。
mlr3 - predict.all = TRUE のレンジャー学習器のバグ
パッケージ {ranger} のランダム フォレストのすべての予測を ml3 予測オブジェクトに保存し、個々のツリーの予測を別の学習者の特徴として使用したいと考えています。
次のコードは、R の次のエラー メッセージに続きます。
コード:
エラー:
check_prediction_data.PredictionDataClassif(pdata) のエラー:
'as_factor(pdata$response, levels = lvls)' のアサーションが失敗しました: 長さは 30 でなければなりませんが、長さは 15000 です。
誰かがこの問題を解決するのを手伝ってくれますか?
r - 分位回帰フォレストからの予測間隔は、予想よりも高いカバレッジを持っていますか?
質問:
予測区間のカバレッジが予想よりも広くなる要因は何ですか? 特にrangerパッケージを使用した分位回帰フォレストに関しては?
特定のコンテキスト + REPREX:
私はパースニップとtidymodelsパッケージ スイートを介して分位点回帰フォレストを使用しranger
て、予測間隔を生成しています。私はames
住宅データを使用した例を確認していましたが、以下の例で、ホールドアウト データセットで評価した場合、私の 90% 予測区間が経験的に 97% までカバーされていることに驚きました (トレーニング データのカバー率はさらに高かった)。 .
私のモデルのパフォーマンスがトレーニングセットよりもホールドアウト セットの方が大幅に悪いことを考えると、これはさらに驚くべきことでした。
ライブラリのロード、データ、分割のセットアップ:
モデル ワークフローを指定します。
トレーニング データセットとホールドアウト データセットで予測を行います。
トレーニング データとホールドアウト データの両方のカバレッジ率が、予想される 90% よりもはるかに高いことを示します (経験的には、それぞれ ~98% と ~97% のようです)。
推測:
ranger
パッケージまたは分位点回帰フォレストに関する何かが、分位点を推定する方法で過度に極端であるか、何らかの形で「極端な」方向に過剰適合しています-非常に保守的な予測間隔につながります- これは、このデータセット / モデルに固有の癖です
- 何かが足りないか、何かが正しく設定されていません