python - pandas.DataFrameを使用した確率テンソル乗算

Question

Pythonで条件付き確率を保存して使用するための良い方法を探しています。

データフレームの使用を考えていpandasます。一部の条件付き確率がXなどの場合P(X=A|P1=1, P2=1) = 0.2、P(X=B|P1=2, P2=1) = 0.9データフレームを使用します

         A    B
P1 P2          
1  1   0.2  0.8
   2   0.5  0.5
2  1   0.9  0.1
   2   0.9  0.1

P1とP2シリーズとしての周辺確率を考えると

1    0.4
2    0.6
Name: P1

1    0.7
2    0.3
Name: P2

Xの周辺確率のシリーズ、つまりシリーズを取得したい

A    0.602
B    0.398
Name: X

欲しいものが手に入る

X = sum(
    sum(
        X.xs(i, level="P1")*P1[i]
        for i in P1.index
        ).xs(j)*P2[j]
    for j in P2.index
    )
X.name="X"

xsしかし、これはより多くの依存関係に簡単に一般化することはできません。最初の依存関係と2番目の依存関係の非対称性levelは奇妙に見えます。いつものように、作業するときpandasは、そのトリックと方法を使用したより良い解決策があると確信しています。

これにはpandas良いツールです。データを別の方法で表す必要があります。この計算を行うための最良の方法は何ですか。これは、本質的にインデックス付きテンソル積pandasです。

score 0 · Accepted Answer

ベクトル化する 1 つの方法は、ラベルの配列でインデックス付けすることにより、シリーズ P1 および P2 の値にアクセスすることです。

In [20]: df = X.reset_index()

In [21]: mP1 = P1[df.P1].values

In [22]: mP2 = P2[df.P2].values

In [23]: mP1
Out[23]: array([ 0.4,  0.4,  0.6,  0.6])

In [24]: mP2
Out[24]: array([ 0.7,  0.3,  0.7,  0.3])

In [25]: mp = mP1 * mP2

In [26]: mp
Out[26]: array([ 0.28,  0.12,  0.42,  0.18])

In [27]: X.mul(mp, axis=0)
Out[27]: 
       A      B
P1 P2              
1  1   0.056  0.224
   2   0.060  0.060
2  1   0.378  0.042
   2   0.162  0.018

In [28]: X.mul(mp, axis=0).sum()
Out[28]: 
A    0.656
B    0.344

In [29]: sum(
    sum(
    X.xs(i, level="P1")*P1[i]
    for i in P1.index
    ).xs(j)*P2[j]
    for j in P2.index
    )
Out[29]: 
A    0.656
B    0.344

(または、次のようにインデックスをリセットせずに MultiIndex の値にアクセスします。)

In [38]: P1[X.index.get_level_values("P1")].values
Out[38]: array([ 0.4,  0.4,  0.6,  0.6])

python - pandas.DataFrameを使用した確率テンソル乗算

1 に答える 1

Related

Reference