問題タブ [roc]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - トレーニング データの ROC が 0.5 未満の sklearn svm 領域
二項分類の問題を解決するために、sklearn v 0.13.1 svm を使用しています。kfold 交差検証を使用して、roc 曲線 (roc_auc) の下の領域を計算し、モデルの品質をテストします。ただし、一部のフォールドでは、トレーニング データであっても、roc_auc は 0.5 未満です。それは不可能ではないでしょうか?アルゴリズムがトレーニング対象のデータで少なくとも 0.5 に達することは常に可能であるべきではありませんか?
これが私のコードです:
出力は次のようになります。
0.5 未満の曲線下面積の結果は意味がありますか? 原則として、train 値と test 値の両方が <0.5 の場合、すべてのポイントの予測を逆にすることができますが、何かがうまくいかないのではないかと心配しています。完全にランダムなデータを与えたとしても、アルゴリズムはトレーニング データで 0.5 に達する必要があると思いましたか?
scikit-learn - roc_curve の y_score 引数としてのバイナリ ベクトル
sklearn roc_curve docstringには次のように記載されています。
「y_score : 配列、形状 = [n_samples] ターゲット スコアは、陽性クラスの確率推定値、信頼値、またはバイナリ決定のいずれかです。」
y_score をバイナリ ベクトル (「バイナリ決定」) に設定するのは、どのような状況で意味がありますか? その結果、その点に反するような 1 つの点を持つ ROC 曲線が得られるのではないでしょうか?
r - R と matlab の結果を複製して、ROC 曲線から最適なしきい値を見つける
OptimalCutpoints
パッケージを使用して、R
ROC 曲線から最適なカットオフ ポイントを見つけています。最適なしきい値を見つけるための基準は、Youden のインデックスを最大化することです。
関数を使用してmatlabで同じことをしようとしていますperfcurve
。perfcurve
X 座標の FPR と Y 座標の TPR という 2 つの軸の既定の基準で実行します。はperfcurve
、しきい値を含むマトリックスを返し、基準に従ってそのうちの 1 つを選択します。
問題は、matlab が与える最適なしきい値が R と同じではないことです。ただし、R による最適なしきい値は、matlab が返すしきい値行列に含まれています。
R が返す結果を matlab の結果で複製するにはどうすればよいですか? Youden のインデックスの基準が matlab で正しく設定されていないと思われます。
roc - Rのpower.roc.testの問題
私の記事では、いくつかの異なる ROC 分析を分析しています。したがって、サンプルサイズが適切かどうかを調査しています。ROC 分析の可能なサンプル サイズのすべての組み合わせで構成されるデータ フレームを作成しました。
私の目的は、ライン プロットのケース/コントロール (つまり、カッパ) と最適な AUC を作成することです。
したがって、power.roc.test を使用して 3 番目の変数を作成し、最適な AUC を計算したいと思います。
上記の問題に遭遇しましたが、どこに問題がありますか?
r - gbm パッケージの ROC スコア
gbm パッケージを使用して ROC スコア (AUC) を計算できません。ブーストされた回帰木を使用しています。私が実行しているスクリプトは次のとおりです。
「トレーニング データ ROC スコア」と「相互検証 ROC スコア」を他の相関パラメーターと共に生成する必要があります。ROC スコアが得られません。に電話しnames(testing.tc5.lr005)
ました。を呼び出すと、リストされますcv.roc.matrix
が、次のように生成されますtesting.tc5.lr005$cv.roc.matrix
。
[1] 0 0 0 0 0 0 0 0 0 0
ROC AUC をroc(TestData$TN,predTN)
(TestData ~ 予測に使用されるデータ、つまり観測値; predTN ~ 予測値) で計算してみました。という結果になり[1]NA
ます。モデルの残りの部分は、合理的なテストと CV 相関と SE 値でうまく機能しているように見えますが、何が間違っているのかわかりません。私が間違っている場所や別の場所についての指針をいただければ幸いです。ありがとう
r - ROC 曲線をプロットし、特定のカットオフ情報で R の AUC を計算します
このようなデータが与えられた場合: SN = 感度。SP = 特異性
ROC 曲線をプロットして AUC を計算するにはどうすればよいですか。そして、2 つの異なる ROC 曲線間で AUC を比較します。pROC や ROCR などのほとんどのパッケージでは、データの入力は上記のものとは異なります。Rまたは他の方法でこの問題を解決する方法を誰かが提案できますか?
python - Python でのしきい値コード化 ROC プロットの作成
R のROCR パッケージは、曲線に沿ってしきい値を色分けしてラベル付けする ROC 曲線プロットのオプションを提供します。
私がPythonで得ることができる最も近いものは次のようなものです
を与える
しきい値をラベル付け ( を使用print.cutoffs.at
) し、色分け( を使用)する R の機能と同等の機能を提供するパッケージはありますか? colorize
おそらく、この情報は にありthresholds
、 によって返されsklearn.metrics.roc_curve
ますが、それを使用して図を色分けし、ラベルを付ける方法がわかりません。
r - predict.gbm の multiclass.roc
multiclass.roc 関数 ('pROC' パッケージ) を使用して、predict.gbm ('gbm' パッケージ) からの出力をフォーマットして利用する方法を理解するのに苦労しています。
多項 gbm を使用して検証データセットを予測しました。その出力は、各因子レベルに属する各データポイントの確率のようです。(間違っていたら訂正してください)
因子レベルは 1 ~ 5 です。
multiclass.roc を使用して Hand and Till (2001) で定義されているマルチクラス AUC を計算しようとしていますが、必要な単一ベクトルで予測値を提供する方法がわかりません。
必要に応じて例を作成することもできますが、これは一部の人にとっては日常的なことであり、手順の初心者として何かが欠けていると思います。