次のような pd DataFrame があるとします。
price volume cat_count
zipcode date
91111.0 01/01/2018 10 5 NaN
02/10/2018 NaN 9 NaN
94312.0 04/04/2018 7 4 6
02/10/2018 NaN 3 4
96666.0 05/05/2018 NaN 3 14
02/10/2018 NaN NaN 8
07/08/2018 NaN 0 NaN
98432.0 06/08/2018 4 NaN NaN
そして、キーが郵便番号で、その値が近くの郵便番号のリスト (キーの郵便番号から x キロメートル以内) である辞書を持っているとします。この辞書は次のようになります。
nearby_zips = {
91111.0 : [94312.0],
94312.0 : [91111.0, 96666.0],
96666.0 : [94312.0],
98432.0 : []
}
データを効率的に補間するにはどうすればよいですか。どの列でも、すべての値が郵便番号インデックスの NaN である場合、その列の非 NaN 値を持つ最も近い郵便番号を見つけ、これらの値を使用してすべての郵便番号を入力します。列の NaN 値。
上記の例の DataFrame の参照出力は次のようになります。
price volume cat_count
zipcode date
91111.0 01/01/2018 10 5 NaN
02/10/2018 NaN 9 4
04/04/2018 NaN NaN 6
94312.0 04/04/2018 7 4 6
02/10/2018 NaN 3 4
96666.0 05/05/2018 NaN 3 14
02/10/2018 NaN NaN 8
07/08/2018 NaN 0 NaN
04/04/2018 7 NaN NaN
98432.0 06/08/2018 4 NaN NaN
郵便番号インデックス 91111.0 と 96666.0 のデータと、それらがどのように変化したかに注目してください。