1

次のような pd DataFrame があるとします。

                            price     volume     cat_count 
zipcode      date
91111.0      01/01/2018     10        5          NaN
             02/10/2018     NaN       9          NaN
94312.0      04/04/2018     7         4          6
             02/10/2018     NaN       3          4
96666.0      05/05/2018     NaN       3          14
             02/10/2018     NaN       NaN        8
             07/08/2018     NaN       0          NaN
98432.0      06/08/2018     4         NaN        NaN

そして、キーが郵便番号で、その値が近くの郵便番号のリスト (キーの郵便番号から x キロメートル以内) である辞書を持っているとします。この辞書は次のようになります。

nearby_zips = {
     91111.0 : [94312.0],
     94312.0 : [91111.0, 96666.0],
     96666.0 : [94312.0],
     98432.0 : []
}

データを効率的に補間するにはどうすればよいですか。どの列でも、すべての値が郵便番号インデックスの NaN である場合、その列の非 NaN 値を持つ最も近い郵便番号を見つけ、これらの値を使用してすべての郵便番号を入力します。列の NaN 値。

上記の例の DataFrame の参照出力は次のようになります。

                            price     volume     cat_count 
zipcode      date
91111.0      01/01/2018     10        5          NaN
             02/10/2018     NaN       9          4
             04/04/2018     NaN       NaN        6
94312.0      04/04/2018     7         4          6
             02/10/2018     NaN       3          4
96666.0      05/05/2018     NaN       3          14
             02/10/2018     NaN       NaN        8
             07/08/2018     NaN       0          NaN
             04/04/2018     7         NaN        NaN
98432.0      06/08/2018     4         NaN        NaN

郵便番号インデックス 91111.0 と 96666.0 のデータと、それらがどのように変化したかに注目してください。

4

0 に答える 0