問題タブ [gbm]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - NA結果を生成するGBMモデル
単純な GBM 分類モデルを実行して、ランダム フォレストと SVM に対するパフォーマンスのベンチマークを実行しようとしていますが、モデルのスコアを正しく取得するのに問題があります。エラーをスローしていませんが、予測はすべて NaN です。の乳がんデータを使用していますmlbench
。コードは次のとおりです。
私が間違っていることを手伝ってくれる人はいますか?また、予測関数の出力を変換する必要がありますか? それが GBM 予測の問題であると思われることを読みました。ありがとう。
r - Rのgbm信頼区間?
gbm.predict() 関数から信頼区間を計算する方法を知っている人はいますか? gbm 予測で 95% の信頼区間を確認する方法が欲しいです。
r - gbm パッケージの ROC スコア
gbm パッケージを使用して ROC スコア (AUC) を計算できません。ブーストされた回帰木を使用しています。私が実行しているスクリプトは次のとおりです。
「トレーニング データ ROC スコア」と「相互検証 ROC スコア」を他の相関パラメーターと共に生成する必要があります。ROC スコアが得られません。に電話しnames(testing.tc5.lr005)
ました。を呼び出すと、リストされますcv.roc.matrix
が、次のように生成されますtesting.tc5.lr005$cv.roc.matrix
。
[1] 0 0 0 0 0 0 0 0 0 0
ROC AUC をroc(TestData$TN,predTN)
(TestData ~ 予測に使用されるデータ、つまり観測値; predTN ~ 予測値) で計算してみました。という結果になり[1]NA
ます。モデルの残りの部分は、合理的なテストと CV 相関と SE 値でうまく機能しているように見えますが、何が間違っているのかわかりません。私が間違っている場所や別の場所についての指針をいただければ幸いです。ありがとう
r - predict.gbm の multiclass.roc
multiclass.roc 関数 ('pROC' パッケージ) を使用して、predict.gbm ('gbm' パッケージ) からの出力をフォーマットして利用する方法を理解するのに苦労しています。
多項 gbm を使用して検証データセットを予測しました。その出力は、各因子レベルに属する各データポイントの確率のようです。(間違っていたら訂正してください)
因子レベルは 1 ~ 5 です。
multiclass.roc を使用して Hand and Till (2001) で定義されているマルチクラス AUC を計算しようとしていますが、必要な単一ベクトルで予測値を提供する方法がわかりません。
必要に応じて例を作成することもできますが、これは一部の人にとっては日常的なことであり、手順の初心者として何かが欠けていると思います。
python - Grandient Boosting Regressor : 「TypeError: 柔軟な型で削減を実行できません」
私はpythonが初めてで、Gradient Boosting Regressorを使用してプログラムを開発しようとしています。1 つのトレーニング セットと 1 つのテスト セットの 2 つの大きなデータ セットがあり、まったく同じ列があります。私の目標は、トレーニング セットの情報を使用して、テスト セットの SeriousDlqin2yrs 列を予測することです。
これは私が書いたプログラムです:
しかし、私がプログラムを実行すると、pythonは私にこの答えを与えます:
どこから来たのかわかりません。この質問について多くの論文を読みましたが、この特定の問題の解決策は見つかりませんでした。
よろしくお願いいたします。
r - gbm と blackboost のメモリ使用量の違い
私は約 250000 の観測と 50 の予測子 (いくつかは最終的には約 100 の特徴) を持つデータベースに取り組んでおり、blackboost() 関数 (mboost パッケージから) を使用すると問題が発生し、メモリ割り当てエラーが発生します。
同時に、gbm() はデータ量を処理するのに問題はありません。ドキュメントによると、blackboost で使用されるアルゴリズムは gbm と同じです。(" http://cran.r-project.org/web/packages/mboost/mboost.pdf ")。
ある機能がデータベースを管理でき、他の機能が管理できない理由は明らかではありません.
- gbm にはサブサンプリング戦略 (「bag.fraction」引数で設定) があり、これは blackboost に実装されていないようで、メモリ使用量に影響を与えます。
- gbm は CART 関数を使用してツリーを構築し、blackboost は巨大なメモリ フットプリントを持つと思われる ctree を使用します ( party:::ctree モデルからトレーニング データを削除するには? )
gbm ではなく mboost で利用できる AUC() 損失関数を使用したいので、blackboost のメモリ使用制限を克服するための提案に興味があります。
もう 1 つの追加の質問です。モデル内の変数の数を減らそうとすると、blackboost から次の新しいエラーが発生します。
AUC勾配関数から来ているようです。
ご協力ありがとうございました。
r - R ~ gbm からクラス予測を抽出する方法はありますか?
次のコードを検討してください。
結果:
c(absent,absent,...) など、予測されたクラスを直接取得する方法はありますか
次のコードでこれを行うことができます:
結果:
【1】「欠席」「欠席」「欠席」「欠席」…
ただし、これは常に文字列を返します。返される型を予測子の型と同じにしたい (たとえば、予測子が因子型の場合、結果を因子にしたい、または整数型の場合、結果を整数型にするなど...) . 予測されたクラスを返すデフォルト関数はありますか?
望ましい動作の例:
r - 分布 = "bernoulli" の R で gbm を使用した勾配ブースティング
gbm
パッケージを使用R
し、配布に「bernoulli」オプションを適用して分類器を構築していますが、「nan」という異常な結果が得られ、分類結果を予測できません。しかし、「adaboost」を使用すると、同じエラーは発生しません。以下はサンプルコードです。アイリスデータセットで同じエラーを再現しました。
これを機能させるための回避策があれば教えてください。私がこれを使用している理由は、加法ロジスティック回帰を試すためです.Rにこれを行うための他の選択肢があるかどうかを提案してください.
ありがとう。