生存パッケージのSurv
および関数を使用して生存分析を実行しようとしています。survfit
ほとんどのデータが切り捨てられたままになっていて、Surv
正しく機能します。私の応答変数は、橋が欠陥があると分類されてから崩壊するまでの時間 (年単位で測定) です。2012 年から 1992 年までさかのぼって各橋の欠陥状況を追跡できますが、それ以上は追跡できません。検閲が行われるのは、多くの橋が崩壊時から 1992 年にさかのぼって欠陥があると分類されたため、橋が欠陥になった正確な時期がわからないため、橋の真の「寿命」(橋梁からの年数) がわからないためです。崩壊する不完全な分類)。たとえば、橋が 1995 年に崩壊し、1995 年、1994 年、1993 年、1992 年に欠陥があると分類されたとします。最初に欠陥があると分類されたのは 1992 年である可能性もあり、欠陥があると分類された可能性もあります。 1984年以来。
いくつかのサンプルデータ:
Year0 = c(1992, 1992, 1999, 1992, 1993, 2007, 2005, 1992) # The years when each bridge was first observed as being deficient.
Year1 = c(1993, 1994, 2002, 1996, 2004, 2012, 2011, 2000) # The years in which each bridge collapsed
Defyears = Year1 - Year0 + 1 # The number of years for wich I can observe each bridge being deficient
time1 = Year0 - 1992 # Since I want the time scale to be from 0 to 21 instead of 1992 - 2012, I subtract 1992 from each time observation.
# This now becomes the beginning point for the lifetime of each bridge.
time2 = Defyears + time1 # This is the ending point of the lifetime of each bridge.
n = length(time2)
8 つの橋のうち 4 つ (橋 1、2、4、および 8) が切り捨てられたままになっていることに注意してください。それらが最初に欠陥として分類された時期を正確に観察することはできません。ブリッジ 3、5、6、および 7 については、1992 年以降に欠陥が生じて以来、正確な寿命を知っているため、これらの観察は打ち切られていません。
次に、以下のモデルに適合します。
bridges = survfit(Surv(time = time1, time2 = time2, event = rep(1,n)) ~ 1) # I do "event = rep(1,n)" because each bridge collapsed.
このモデルが正しいかどうかはわかりません。一つには、ドキュメントでは、「時間」は右打ち切りデータまたは間隔打ち切りデータの開始時間であると書かれています。別の理由として、このモデルが打ち切られていない観察をどのように説明しているかわかりません。これが正しいかどうか、そうでない場合は、何を変更する必要があるのか、その理由を教えてください。どんな助けでも大歓迎です。本当にありがとう!