python - pandas - DataFrame の下位レベルを選択して ffill を実行する

Question

私はそのような DataFrame を持っています (それは MultiIndexed DataFrame ですか?これを正しく理解しているかどうかはわかりません...):

df = pd.DataFrame({'index' : range(8),
'variable1' : ["A","A","B","B","A","B","B","A"],
'variable2' : ["a","b","a","b","a","b","a","b"],
'variable3' : ["x","x","x","y","y","y","x","y"],
'result': [1,0,0,1,1,0,0,1]})

df2 = df.pivot_table(values='result',rows='index',cols=['variable1','variable2','variable3'])

variable1   A               B    
variable2   a       b       a   b
variable3   x   y   x   y   x   y
index                            
0           1 NaN NaN NaN NaN NaN
1         NaN NaN   0 NaN NaN NaN
2         NaN NaN NaN NaN   0 NaN
3         NaN NaN NaN NaN NaN   1
4         NaN   1 NaN NaN NaN NaN
5         NaN NaN NaN NaN NaN   0
6         NaN NaN NaN NaN   0 NaN
7         NaN NaN NaN   1 NaN NaN

今私がやりたいffill()のは値ですが、variable3 == 'y'. 望ましい結果は次のとおりです。

variable1   A               B    
variable2   a       b       a   b
variable3   x   y   x   y   x   y
index                            
0           1 NaN NaN NaN NaN NaN
1         NaN NaN   0 NaN NaN NaN
2         NaN NaN NaN NaN   0 NaN
3         NaN NaN NaN NaN NaN   1
4         NaN   1 NaN NaN NaN   1
5         NaN   1 NaN NaN NaN   0
6         NaN   1 NaN NaN   0   0
7         NaN   1 NaN   1 NaN   0

variable1とを繰り返すことでこれを行うことができることを知ってvariable2います。それぞれが次のようなことを行います。

df2['A']['a']['y'].ffill()

しかし、これを回避する方法が必要だと思います...

score 1 · Accepted Answer

結果を割り当てる必要があるため、少し注意が必要です。

最初にレベルを入れ替え、変数 3 を一番上に置きます。ffill は簡単に計算され、代入されます。

In [44]: x = df2.swaplevel('variable1','variable3',axis=1)

In [45]: x['y'] = x['y'].ffill()

In [46]: x.swaplevel('variable3','variable1',axis=1)
Out[46]: 
variable1   A               B    
variable2   a       b       a   b
variable3   x   y   x   y   x   y
index                            
0           1 NaN NaN NaN NaN NaN
1         NaN NaN   0 NaN NaN NaN
2         NaN NaN NaN NaN   0 NaN
3         NaN NaN NaN NaN NaN   1
4         NaN   1 NaN NaN NaN   1
5         NaN   1 NaN NaN NaN   0
6         NaN   1 NaN NaN   0   0
7         NaN   1 NaN   1 NaN   0

0.13（近日公開）では、これを行うことができます

必要なサブセクションを選択し、drop_level=Falseそれを完全なセクションとして返すように指定し (たとえば、選択しているレベルではありません)、それを埋めます。

In [77]: df_sub = df2.xs('y',level='variable3',axis=1,drop_level=False).ffill()

In [78]: df_sub
Out[78]: 
variable1   A       B
variable2   a   b   b
variable3   y   y   y
index                
0         NaN NaN NaN
1         NaN NaN NaN
2         NaN NaN NaN
3         NaN NaN   1
4           1 NaN   1
5           1 NaN   0
6           1 NaN   0
7           1   1   0

In [79]: df2.loc[:,df_sub.columns] = df_sub

In [80]: df2
Out[80]: 
variable1   A               B    
variable2   a       b       a   b
variable3   x   y   x   y   x   y
index                            
0           1 NaN NaN NaN NaN NaN
1         NaN NaN   0 NaN NaN NaN
2         NaN NaN NaN NaN   0 NaN
3         NaN NaN NaN NaN NaN   1
4         NaN   1 NaN NaN NaN   1
5         NaN   1 NaN NaN NaN   0
6         NaN   1 NaN NaN   0   0
7         NaN   1 NaN   1 NaN   0

python - pandas - DataFrame の下位レベルを選択して ffill を実行する

2 に答える 2

Related

Reference