python - ユーザー定義関数を使用した Groupby Pandas

Question

関数をグループキーとして渡すと、インデックス値ごとに 1 回関数が呼び出され、戻り値がグループ名として使用されることを理解しています。私が理解できないのは、列の値で関数を呼び出す方法です。

だから私はこれを行うことができます：

people = pd.DataFrame(np.random.randn(5, 5), 
                      columns=['a', 'b', 'c', 'd', 'e'],
                      index=['Joe', 'Steve', 'Wes', 'Jim', 'Travis'])
def GroupFunc(x):
    if len(x) > 3:
        return 'Group1'
    else:
        return 'Group2'

people.groupby(GroupFunc).sum()

これにより、データが 2 つのグループに分割されます。そのうちの 1 つは長さ 3 以下のインデックス値を持ち、もう 1 つは長さ 3 以上のインデックス値を持ちます。しかし、列の値の 1 つを渡すにはどうすればよいでしょうか? たとえば、各インデックスポイントの列 d の値が 1 より大きい場合、次のようにすればよいことがわかります。

people.groupby(people.a > 1).sum()

しかし、今後の参考のために、ユーザー定義関数でこれを行う方法を知りたいです。

何かのようなもの：

def GroupColFunc(x):
if x > 1:
    return 'Group1'
else:
    return 'Group2'

しかし、これをどのように呼ぶのですか？私は試した

people.groupby(GroupColFunc(people.a))

および同様の亜種ですが、これは機能しません。

列の値を関数に渡すにはどうすればよいですか? たとえば、 people.a > people.b でグループ化するなど、複数の列の値を渡すにはどうすればよいですか?

score 48 · Accepted Answer

> 1 でグループ化するには、次のように関数を定義できます。

>>> def GroupColFunc(df, ind, col):
...     if df[col].loc[ind] > 1:
...         return 'Group1'
...     else:
...         return 'Group2'
...

その後、次のように呼び出します

>>> people.groupby(lambda x: GroupColFunc(people, x, 'a')).sum()
               a         b         c         d        e
Group2 -2.384614 -0.762208  3.359299 -1.574938 -2.65963

または、無名関数でのみ実行できます。

>>> people.groupby(lambda x: 'Group1' if people['b'].loc[x] > people['a'].loc[x] else 'Group2').sum()
               a         b         c         d         e
Group1 -3.280319 -0.007196  1.525356  0.324154 -1.002439
Group2  0.895705 -0.755012  1.833943 -1.899092 -1.657191

documentationで述べたように、ラベルを提供する Series を渡すことでグループ化することもできます -> グループ名マッピング:

>>> mapping = np.where(people['b'] > people['a'], 'Group1', 'Group2')
>>> mapping
Joe       Group2
Steve     Group1
Wes       Group2
Jim       Group1
Travis    Group1
dtype: string48
>>> people.groupby(mapping).sum()
               a         b         c         d         e
Group1 -3.280319 -0.007196  1.525356  0.324154 -1.002439
Group2  0.895705 -0.755012  1.833943 -1.899092 -1.657191

python - ユーザー定義関数を使用した Groupby Pandas

1 に答える 1

Related

Reference