python - pandas MultiIndex からレベルを削除する

Question

からレベルを完全に削除したいMultiIndex

import pandas as pd
tuples = [(0, 100, 1000),(0, 100, 1001),(0, 100, 1002), (1, 101, 1001)]
index_3levels=pd.MultiIndex.from_tuples(tuples,names=["l1","l2","l3"])
print index_3levels.levels
[Int64Index([0, 1], dtype=int64), Int64Index([100, 101], dtype=int64), Int64Index([1000, 1001, 1002], dtype=int64)]

達成するために、最初の2つのレベルを抽出したいと思います:

print index_2levels
MultiIndex
[(0, 100), (1, 101)]

droplevelレベルを下げますが、重複は保持します:

print index_3levels.droplevel("l3")
MultiIndex
[(0, 100), (0, 100), (0, 100), (1, 101)]

原則uniqueとして、それらを削除するように呼びかけることができます。しかし、それは正しいアプローチではないようです。より直接的な方法はありますか？

score 7 · Accepted Answer

droplevelこれは、おそらく渡すことによって、の拡張になる可能性がありますuniquify=True

In [77]: MultiIndex.from_tuples(index_3levels.droplevel('l3').unique())
Out[77]: 
MultiIndex
[(0, 100), (1, 101)]

これを行う別の方法を次に示します。

最初にいくつかのデータを作成します

In [226]: def f(i):
            return [(i,100,1000),(i,100,1001),(i,100,1002),(i+1,101,1001)]

In [227]: l = []

In [228]: for i in range(1000000):
             l.extend(f(i))

In [229]: index_3levels=pd.MultiIndex.from_tuples(l,names=["l1","l2","l3"])

In [230]: len(index_3levels)
Out[230]: 4000000

上に示した方法

In [238]: %timeit MultiIndex.from_tuples(index_3levels.droplevel(level='l3').unique())
1 loops, best of 3: 2.26 s per loop

インデックスを l1 と l2 の 2 つのコンポーネントに分割して一意化しましょう。これらは Int64Index であるため、一意化する方がはるかに高速です。

In [249]: l2 = index_3levels.droplevel(level='l3').droplevel(level='l1').unique()

In [250]: %timeit index_3levels.droplevel(level='l3').droplevel(level='l1').unique()
10 loops, best of 3: 35.3 ms per loop

In [251]: l1 = index_3levels.droplevel(level='l3').droplevel(level='l2').unique()

In [252]: %timeit index_3levels.droplevel(level='l3').droplevel(level='l2').unique()
10 loops, best of 3: 52.2 ms per loop

In [253]: len(l1)
Out[253]: 1000001

In [254]: len(l2)
Out[254]: 2

再組み立て

In [255]: %timeit MultiIndex.from_arrays([ np.repeat(l1,len(l2)), np.repeat(l2,len(l1)) ])
10 loops, best of 3: 183 ms per loop

合計時間は約 270ms で、かなり高速化されています。順序が異なる場合があると思いますが、 np.repeate/np.tile のいくつかの組み合わせが機能すると思います

python - pandas MultiIndex からレベルを削除する

1 に答える 1

Related

Reference