4

私は次のようなDataFrameを持っています:

ind  col1 col2
1    12   string1  ...
2    23   string2 ...
3    34   string1 ...
4    13   string2 ...
5    17   string3 ...
...  ...  ...     ...

col2 が一意になるように DataFrame を折りたたみたい。col1 (および他のすべての数値列) に、col2 が等しいすべての値の中央値を入れたいと思います。

df[df["col2"] == "stringN"] を抽出し、中央値を計算して新しい DataFrame を構築できることはわかっていますが、これを行うためのよりエレガントで Pythonic な方法はありますか?

4

1 に答える 1

5

groupbyを使用して行を収集し、col2次のようにすることができます.median()

>>> df
   ind  col1     col2
0    1    12  string1
1    2    23  string2
2    3    34  string1
3    4    13  string2
4    5    17  string3
>>> df.groupby("col2")
<pandas.core.groupby.DataFrameGroupBy object at 0x9f41b8c>
>>> df.groupby("col2").median()
         ind  col1
col2              
string1    2    23
string2    3    18
string3    5    17
>>> df.groupby("col2").median().reset_index()
      col2  ind  col1
0  string1    2    23
1  string2    3    18
2  string3    5    17

結果には値の中央値もあることに注意してくださいind.mean().min()、も参照してください.max()。または、必要に応じて自分で作成することもできます。

于 2013-03-18T20:05:43.130 に答える