python - パンダデータフレームで連続するセグメントを見つける

Question

連続した時点で測定された pandas.DataFrame があります。各測定に加えて、観測中のシステムは、各時点で明確な状態を持っていました。したがって、DataFrame には、各測定でのシステムの状態を示す列も含まれます。状態の変化は、測定間隔よりもはるかに遅くなります。その結果、州を示す列は次のようになります (インデックス: 州):

連続して等しい状態の各セグメントのインデックスを取得する簡単な方法はありますか? つまり、次のようなものを取得したいと考えています。

[[1,2,3,4], [5,6,7,8], [9,10,11,12,13]]

結果は、単純なリストとは異なるものになる場合もあります。

これまでに考えられる唯一の解決策は、行を手動で反復処理し、セグメントの変更点を見つけて、これらの変更点からインデックスを再構築することですが、もっと簡単な解決策があることを願っています。

score 50 · Accepted Answer

一発ギャグ：

df.reset_index().groupby('A')['index'].apply(np.array)

コード例:

In [1]: import numpy as np

In [2]: from pandas import *

In [3]: df = DataFrame([3]*4+[4]*4+[1]*4, columns=['A'])
In [4]: df
Out[4]:
    A
0   3
1   3
2   3
3   3
4   4
5   4
6   4
7   4
8   1
9   1
10  1
11  1

In [5]: df.reset_index().groupby('A')['index'].apply(np.array)
Out[5]:
A
1    [8, 9, 10, 11]
3      [0, 1, 2, 3]
4      [4, 5, 6, 7]

groupby オブジェクトから情報に直接アクセスすることもできます。

In [1]: grp = df.groupby('A')

In [2]: grp.indices
Out[2]:
{1L: array([ 8,  9, 10, 11], dtype=int64),
 3L: array([0, 1, 2, 3], dtype=int64),
 4L: array([4, 5, 6, 7], dtype=int64)}

In [3]: grp.indices[3]
Out[3]: array([0, 1, 2, 3], dtype=int64)

DSM が言及した状況に対処するには、次のようなことができます。

In [1]: df['block'] = (df.A.shift(1) != df.A).astype(int).cumsum()

In [2]: df
Out[2]:
    A  block
0   3      1
1   3      1
2   3      1
3   3      1
4   4      2
5   4      2
6   4      2
7   4      2
8   1      3
9   1      3
10  1      3
11  1      3
12  3      4
13  3      4
14  3      4
15  3      4

両方の列をグループ化し、ラムダ関数を適用します。

In [77]: df.reset_index().groupby(['A','block'])['index'].apply(np.array)
Out[77]:
A  block
1  3          [8, 9, 10, 11]
3  1            [0, 1, 2, 3]
   4        [12, 13, 14, 15]
4  2            [4, 5, 6, 7]

score 19 · Accepted Answer

np.diff（）を使用して、セグメントの開始/終了場所をテストし、それらの結果を反復処理できます。その非常に単純なソリューションなので、おそらく最もパフォーマンスの高いソリューションではありません。

a = np.array([3,3,3,3,3,4,4,4,4,4,1,1,1,1,4,4,12,12,12])

prev = 0
splits = np.append(np.where(np.diff(a) != 0)[0],len(a)+1)+1

for split in splits:
    print np.arange(1,a.size+1,1)[prev:split]
    prev = split

結果：

[1 2 3 4 5]
[ 6  7  8  9 10]
[11 12 13 14]
[15 16]
[17 18 19]

python - パンダデータフレームで連続するセグメントを見つける

2 に答える 2

Related

Reference