1

で作成されたグループ化に、それぞれ DF に新しいインデックスを適用できますgroupbyか? 正確に-それを行うためのエレガントな方法はありますか?元のDFはgroupbyグループを介して変更できますか?

UPD: 私のデータは次のようになります。

   A  B         C
0  a  x  0.903343
1  a  z  0.982050
2  g  x  0.274823
3  g  y  0.334491
4  c  z  0.756728
5  f  z  0.697841
6  d  z  0.505845
7  b  z  0.768199
8  b  y  0.743012
9  e  x  0.697212

列「A」と「B」でグループ化し、その列の一意の値のすべてのペアが元の DF で同じインデックス値を持つようにします。また、元のDFは大きくなる可能性があり、まったく新しいDFを非効率的に形成することなく、そのような再インデックスを作成する方法を理解しようとしています。

現在、このソリューションを使用しています:

df = pd.DataFrame({'A': [random.choice(ascii_lowercase[:5]) for _ in xrange(10)],
                    'B': [random.choice(['x', 'y']) for _ in xrange(10)],
                    'C': [random.random() for _ in xrange(10)]})

df['id'] = None
new_df = pd.DataFrame()
for i, (n, g) in enumerate(df.groupby(['A', 'B'])):
    g['id'] = i
    new_df = new_df.append(g)

new_df.set_index('id', inplace=True)
4

1 に答える 1

0

パンダのいくつかの内部関数を使用して、これをすばやく行うことができます。

最初にテストDataFrameを作成します。

import pandas as pd
import random
random.seed(1)
df = pd.DataFrame({'A': [random.choice(ascii_lowercase[:5]) for _ in xrange(10)],
                    'B': [random.choice(['x', 'y']) for _ in xrange(10)],
                    'C': [random.random() for _ in xrange(10)]})

新しいIDが必要な場合は、列AおよびBと同じ順序です。

m = pd.MultiIndex.from_arrays((df.A, df.B))
df.index = pd.factorize(pd.lib.fast_zip(m.labels), sort=True)[0]
print df

出力は次のとおりです。

   A  B         C
1  a  y  0.025446
7  e  x  0.541412
6  d  y  0.939149
2  b  x  0.381204
3  c  x  0.216599
4  c  y  0.422117
5  d  x  0.029041
6  d  y  0.221692
1  a  y  0.437888
0  a  x  0.495812

新しいIDの順序を気にしない場合:

m = pd.MultiIndex.from_arrays((df.A, df.B))
la, lb = m.labels
df.index = pd.factorize(la*len(lb)+lb)[0]
print df

出力は次のとおりです。

  A  B         C
0  a  y  0.025446
1  e  x  0.541412
2  d  y  0.939149
3  b  x  0.381204
4  c  x  0.216599
5  c  y  0.422117
6  d  x  0.029041
2  d  y  0.221692
0  a  y  0.437888
7  a  x  0.495812
于 2013-03-13T01:42:55.873 に答える