次のようないくつかの欠落データがあるデータセットがあります。
id category value
1 A NaN
2 B NaN
3 A 10.5
4 C NaN
5 A 2.0
6 B 1.0
モデルでデータを使用するには、null を入力する必要があります。カテゴリが初めて発生するたびに、NULL になります。私がやりたいのは、カテゴリのようなケースでA
、B
複数の値があり、ヌルをそのカテゴリの平均に置き換えることです。また、1 回しか出現しないカテゴリC
については、残りのデータの平均を入力するだけです。
すべての行の平均を取得するような場合にこれを簡単に実行できることはわかっていC
ますが、A と B のカテゴリごとの手段を実行してヌルを置き換えようとして立ち往生しています。
df['value'] = df['value'].fillna(df['value'].mean())
最終的な df をこのようにする必要があります
id category value
1 A 6.25
2 B 1.0
3 A 10.5
4 C 4.15
5 A 2.0
6 B 1.0