次の問題があります。データフレームは次のようになります。
ID Date Value
1 2016-06-12 2
1 2016-06-13 2.5
1 2016-06-16 4
2 2016-06-12 3
2 2016-06-15 1.5
ご覧のとおり、データに欠けている日があります。だから私はむしろこのようなものが欲しいです:
ID Date Value
1 2016-06-12 2
1 2016-06-13 2.5
1 2016-06-14 NaN
1 2016-06-15 NaN
1 2016-06-16 4
2 2016-06-12 3
2 2016-06-13 NaN
2 2016-06-14 NaN
2 2016-06-15 1.5
それを解決するために、私は次のことをしました:
df_new = df.groupby('ID').apply(lambda x: x.set_index('Date').resample('1D').first())
このソリューションは機能しますが、大規模なデータセットを処理するには約 30 分かかります。したがって、より良い解決策があるかどうかを知りたかったのですか?