12

次のようないくつかの欠落データがあるデータセットがあります。

id    category     value
1     A            NaN
2     B            NaN
3     A            10.5
4     C            NaN
5     A            2.0
6     B            1.0

モデルでデータを使用するには、null を入力する必要があります。カテゴリが初めて発生するたびに、NULL になります。私がやりたいのは、カテゴリのようなケースでAB複数の値があり、ヌルをそのカテゴリの平均に置き換えることです。また、1 回しか出現しないカテゴリCについては、残りのデータの平均を入力するだけです。

すべての行の平均を取得するような場合にこれを簡単に実行できることはわかっていCますが、A と B のカテゴリごとの手段を実行してヌルを置き換えようとして立ち往生しています。

df['value'] = df['value'].fillna(df['value'].mean()) 

最終的な df をこのようにする必要があります

id    category     value
1     A            6.25
2     B            1.0
3     A            10.5
4     C            4.15
5     A            2.0
6     B            1.0
4

2 に答える 2