python - pandas.multiindexのレベルに条件を適用する方法は？

Question

私のデータは次のようになります（ch=チャネル、det=検出器）：

ch det time counts 
1   1    0    123
    2    0    121
    3    0    125 
2   1    0    212
    2    0    210
    3    0    210 
1   1    1    124
    2    1    125
    3    1    123 
2   1    1    210
    2    1    209
    3    1    213

実際には、時間列はfloat12桁程度の有効数字であり、1回の測定のすべての検出器で一定ですが、その値は予測できず、シーケンスでもありません。

作成する必要があるのは、次のようなデータフレームです。

c  time  mean_counts_over_detectors
1   0       xxx
2   0       yyy
1   1       zzz
1   1       www

np.meanつまり、毎回1チャンネルの検出器のすべてのカウントに個別に適用したいと思います。ずんぐりしたループを書くことはできますが、パンダには何かが組み込まれている必要があると思います。私はまだパンダの初心者です。特にMultiIndexには非常に多くの概念があるため、ドキュメントで何を探すべきかわかりません。

タイトルに「条件」が含まれているのは、同じ時間のカウントで、1つのチャネルのすべての検出器の平均が必要であるという事実がスライス条件として表現できるのではないかと思ったからです。

score 3 · Accepted Answer

@meteore と同じですが、MultiIndex を使用します。

In [55]: df
Out[55]:
             counts
ch det time
1  1   0        123
   2   0        121
   3   0        125
2  1   0        212
   2   0        210
   3   0        210
1  1   1        124
   2   1        125
   3   1        123
2  1   1        210
   2   1        209
   3   1        213

In [56]: df.index
Out[56]:
MultiIndex
[(1L, 1L, 0L) (1L, 2L, 0L) (1L, 3L, 0L) (2L, 1L, 0L) (2L, 2L, 0L)
 (2L, 3L, 0L) (1L, 1L, 1L) (1L, 2L, 1L) (1L, 3L, 1L) (2L, 1L, 1L)
 (2L, 2L, 1L) (2L, 3L, 1L)]

In [57]: df.index.names
Out[57]: ['ch', 'det', 'time']

In [58]: df.groupby(level=['ch', 'time']).mean()
Out[58]:
             counts
ch time
1  0     123.000000
   1     124.000000
2  0     210.666667
   1     210.666667

float と groupby には注意してください (これは MultiIndex とは無関係です)。float に関連する数値表現/精度制限により、グループが異なる場合があります。

score 2 · Accepted Answer

MultiIndex を使用しない (持っている場合は、で削除できますdf.reset_index()):

chans = [1,1,1,2,2,2,1,1,1,2,2,2]
df = pd.DataFrame(dict(ch=chans, det=[1,2,3,1,2,3,1,2,3,1,2,3], time=6*[0]+6*[1], counts=np.random.randint(0,500,12)))

groupbyandmeanを集計関数として使用します。

>>> df.groupby(['time', 'ch'])['counts'].mean()
time  ch
0     1     315.000000
      2     296.666667
1     1     178.333333
      2     221.666667
Name: counts

他の集計関数は、次の方法で渡すことができますagg。

>>> df.groupby(['time', 'ch'])['counts'].agg(np.ptp)

python - pandas.multiindexのレベルに条件を適用する方法は？

2 に答える 2

Related

Reference