2 つのデータフレームがあります:tr
はトレーニング セット、ts
テスト セットです。これらには、列uid
(user_id)、categ
(カテゴリ)、およびが含まれますresponse
。
response
ts で予測しようとしている従属変数です。
の平均を計算しようとしていますresponse
in tr
、列で分割されたuid
およびcateg
:
avg_response_uid_categ = tr.groupby(['uid','categ']).response.mean()
これにより結果が得られますが、(望ましくないことに) データフレーム インデックスは MultiIndex です。(これがgroupby(..., as_index=True)
動作です):
MultiIndex[--5hzxWLz5ozIg6OMo6tpQ SomeValueOfCateg, --65q1FpAL_UQtVZ2PTGew AnotherValueofCateg, ...
しかし、代わりに、結果で2つの列「uid」、「categ」を保持し、それらを別々に保持したいと考えています。
aggregate()
の代わりに使用する必要がありgroupby()
ますか? 努力groupby(as_index=False)
は無駄です。