cross-validation - 外部データを使用した生存モデルの検証

Question

Cox モデルを構築および検証するための 2 つのデータセット (トレーニングと検証) があります。

トレーニングデータセットを使用して、段階的選択法を使用して cox モデルを適合させました。

モデルの重要な変数は、検証モデルに含まれる唯一の変数です。これは正しいアプローチですか？

モデルを検証しているときに、検証モデルでは変数が重要ではなく、cox モデルの仮定も成り立たないことに気付きました (検証データの仮定を確認しました)。変数が重要ではないという事実を無視して、検証データのモデルの仮定に関する問題を修正する必要がありますか?

第三に、トレーニングデータと検証データの両方で、3 つのグループを持つ変数「処理」があります。トレーニングでは、グループは標準、新薬、および混合物ですが、検証データでは、グループは標準、新薬、および X (トレーニングデータでは混合物とは異なる治療法です) です。この変数を両方のモデルに含めるのは正しいですか、それとも一致しないグループを除外する必要がありますか? トレーニングデータからの混合物と検証データからの X の混合物、またはそのように使用する必要がありますか? これが私の分析にどのように影響するかはわかりません。

ご回答ありがとうございます。

score 1 · Accepted Answer

最初の質問に答えるには: はい、これは正しいアプローチです。トレーニングセットと検証セットの全体的な考え方は、トレーニングセットに基づいてモデルに関するすべての決定 (ここではどの変数を追加するか) を行うことです。次に、検証セットを使用して、トレーニングセットでの結果の堅牢性を評価します。このようにして、オーバーフィッティング、外れ値、データエラーなどをチェックできます。

ただし、段階的回帰法はお勧めしません。この投稿のトップの回答を参照してください: https://stats.stackexchange.com/questions/115843/backward-selection-for-cox-model-using-r。

2 番目の質問: いいえ、重要でない変数を無視するべきではありません。これがまさに検証セットを持っている理由です。トレーニングセットには、非常に影響力のある観測値 (外れ値) がいくつかあるのではないでしょうか? または、他の何か？とにかく、追加の調査を行う必要があります。

あなたはどの仮定を意味しますか？この仮定はしばしば違反されるため、比例ハザード (PH) の仮定が成り立たないことを意味していると思います。最初の質問の回答と同じ理由です。最初にトレーニングセットの仮定を確認します。そこにも当てはまらない場合は、モデルを調整してください。実際に変数の違反が PH の仮定である場合は、時間の相互作用を追加するか、成層 cox モデルを作成します。[例を参照してください: http://www.dbc.wroc.pl/Content/27006/Borucka_Extensions_of_Cox_model_For_non_proportional.pdf ]

3 番目の質問に対する私の答えは完全にはわかりませんが、次のとおりです。X がトレーニングモデルに含まれていない場合、検証モデルに X を含めることは正しくありません。変数の処理は因子であるため、回帰では基本的に各レベルのダミー (0/1) 変数に変更されます。したがって、X を含めることは、検証モデルにまったく新しい変数を導入することと同じであり、直感に反します。

お役に立てれば！

cross-validation - 外部データを使用した生存モデルの検証

1 に答える 1

Related

Reference