問題タブ [r-ranger]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
643 参照

r - ranger をキャレットに使用しようとするとエラーが発生する

すべての説明変数とターゲット変数 (xxx1) を含むデータセット "df_train" があります。さらに、ランダム フォレスト (xxx2 列) をフィッティングするときに使用する重みを含む別のデータセットがあります。3 倍の cv を実装しようとしていますが、何か問題があるようです。クラスの確率について述べていますが、回帰ランダムフォレストに適合させようとしています。残りのエラーの意味がわかりませんでした。

0 投票する
0 に答える
67 参照

mlr3 - predict.all = TRUE のレンジャー学習器のバグ

パッケージ {ranger} のランダム フォレストのすべての予測を ml3 予測オブジェクトに保存し、個々のツリーの予測を別の学習者の特徴として使用したいと考えています。

次のコードは、R の次のエラー メッセージに続きます。

コード:

エラー:

check_prediction_data.PredictionDataClassif(pdata) のエラー:
'as_factor(pdata$response, levels = lvls)' のアサーションが失敗しました: 長さは 30 でなければなりませんが、長さは 15000 です。

誰かがこの問題を解決するのを手伝ってくれますか?

0 投票する
0 に答える
165 参照

r - 分位回帰フォレストからの予測間隔は、予想よりも高いカバレッジを持っていますか?

質問:

予測区間のカバレッジが予想よりも広くなる要因は何ですか? 特にrangerパッケージを使用した分位回帰フォレストに関しては?

特定のコンテキスト + REPREX:

私はパースニップtidymodelsパッケージ スイートを介して分位点回帰フォレストを使用しrangerて、予測間隔を生成しています。私はames住宅データを使用した例を確認していましたが、以下の例で、ホールドアウト データセットで評価した場合、私の 90% 予測区間が経験的に 97% までカバーされていることに驚きました (トレーニング データのカバー率はさらに高かった)。 .

私のモデルのパフォーマンスがトレーニングセットよりもホールドアウト セットの方が大幅に悪いことを考えると、これはさらに驚くべきことでした。

ライブラリのロード、データ、分割のセットアップ:

モデル ワークフローを指定します。

トレーニング データセットとホールドアウト データセットで予測を行います。

トレーニング データとホールドアウト データの両方のカバレッジ率が、予想される 90% よりもはるかに高いことを示します (経験的には、それぞれ ~98% と ~97% のようです)。

推測:

  • rangerパッケージまたは分位点回帰フォレストに関する何かが、分位点を推定する方法で過度に極端であるか、何らかの形で「極端な」方向に過剰適合しています-非常に保守的な予測間隔につながります
  • これは、このデータセット / モデルに固有の癖です
  • 何かが足りないか、何かが正しく設定されていません