私はパネルデータを持っていますが、特定の年の前に多くの変数が観測値を失っています。年は変数によって異なります。複数の列にまたがる欠落データポイントを推定するための効率的な方法は何ですか?線形トレンドからの外挿のような単純なものを考えていますが、予測を複数の列に適用する効率的な方法を見つけたいと思っています。以下は、私が扱っているものと同様の欠落があるサンプルデータセットです。この例では、各列の観測データポイントで計算された線形トレンドを使用して、「国内総生産」変数と「平均余命」変数のNA値を入力したいと考えています。
###Simulate National GDP values
set.seed(42)
nat_gdp <- c(replicate(20L, {
foo <- rnorm(3, mean = 2000, sd = 300) + c(0,1000,2000)
c(NA,NA,foo)}))
###Simulate national life expectancy values
nat_life <- c(replicate(20L, {
foo <- rnorm(2, mean = 55, sd = 7.8) + c(0,1.5)
c(NA,NA,NA,foo)}))
###Construct the data.table
data.sim <- data.table( GovernorateID = c(rep(seq.int(11L,15L,by=1L), each = 20)),
DistrictID =rep(seq.int(1100,1500,by=100),each=20 ) + rep(seq_len(4), each = 5),
Year = seq.int(1990,1994,by=1L),
National_gdp = nat_gdp ,
National_life_exp = nat_life )