1

Cox モデルを構築および検証するための 2 つのデータ セット (トレーニングと検証) があります。

トレーニング データ セットを使用して、段階的選択法を使用して cox モデルを適合させました。

モデルの重要な変数は、検証モデルに含まれる唯一の変数です。これは正しいアプローチですか?

モデルを検証しているときに、検証モデルでは変数が重要ではなく、cox モデルの仮定も成り立たないことに気付きました (検証データの仮定を確認しました)。変数が重要ではないという事実を無視して、検証データのモデルの仮定に関する問題を修正する必要がありますか?

第三に、トレーニング データと検証データの両方で、3 つのグループを持つ変数「処理」があります。トレーニングでは、グループは標準、新薬、および混合物ですが、検証データでは、グループは標準、新薬、および X (トレーニング データでは混合物とは異なる治療法です) です。この変数を両方のモデルに含めるのは正しいですか、それとも一致しないグループを除外する必要がありますか? トレーニング データからの混合物と検証データからの X の混合物、またはそのように使用する必要がありますか? これが私の分析にどのように影響するかはわかりません。

ご回答ありがとうございます。

4

1 に答える 1

1

最初の質問に答えるには: はい、これは正しいアプローチです。トレーニング セットと検証セットの全体的な考え方は、トレーニング セットに基づいてモデルに関するすべての決定 (ここではどの変数を追加するか) を行うことです。次に、検証セットを使用して、トレーニング セットでの結果の堅牢性を評価します。このようにして、オーバーフィッティング、外れ値、データ エラーなどをチェックできます。

ただし、段階的回帰法はお勧めしません。この投稿のトップの回答を参照してください: https://stats.stackexchange.com/questions/115843/backward-selection-for-cox-model-using-r

2 番目の質問: いいえ、重要でない変数を無視するべきではありません。これがまさに検証セットを持っている理由です。トレーニング セットには、非常に影響力のある観測値 (外れ値) がいくつかあるのではないでしょうか? または、他の何か?とにかく、追加の調査を行う必要があります。

あなたはどの仮定を意味しますか?この仮定はしばしば違反されるため、比例ハザード (PH) の仮定が成り立たないことを意味していると思います。最初の質問の回答と同じ理由です。最初にトレーニング セットの仮定を確認します。そこにも当てはまらない場合は、モデルを調整してください。実際に変数の違反が PH の仮定である場合は、時間の相互作用を追加するか、成層 cox モデルを作成します。[例を参照してください: http://www.dbc.wroc.pl/Content/27006/Borucka_Extensions_of_Cox_model_For_non_proportional.pdf ]

3 番目の質問に対する私の答えは完全にはわかりませんが、次のとおりです。X がトレーニング モデルに含まれていない場合、検証モデルに X を含めることは正しくありません。変数の処理は因子であるため、回帰では基本的に各レベルのダミー (0/1) 変数に変更されます。したがって、X を含めることは、検証モデルにまったく新しい変数を導入することと同じであり、直感に反します。

お役に立てれば!

于 2016-07-15T13:47:11.003 に答える