python - Python:データフレーム内の複数の配列の要素ごとの標準偏差を取得する方法

Question

各セルに配列と NaN を含むかなり大きなデータフレーム (df) があり、最初の 3 行は次のようになります。

df:
                 A                B                C
X  [4, 8, 1, 1, 9]              NaN  [8, 2, 8, 4, 9]
Y  [4, 3, 4, 1, 5]  [1, 2, 6, 2, 7]  [7, 1, 1, 7, 8]
Z              NaN  [9, 3, 8, 7, 7]  [2, 6, 3, 1, 9]

私はすでに（piRSquaredのおかげで）各列の行に対して要素ごとの平均を取る方法を知っているので、これを得ることができます：

element_wise_mean:
A                        [4.0, 5.5, 2.5, 1.0, 7.0]
B                        [5.0, 2.5, 7.0, 4.5, 7.0]
C    [5.66666666667, 3.0, 4.0, 4.0, 8.66666666667]

今、それぞれの標準偏差を取得する方法を知りたいのですが、何か考えはありますか? また、 groupby() が何をしているのかまだわかりません。誰かがその機能をより詳細に説明できますか?

df

np.random.seed([3,14159])
df = pd.DataFrame(
    np.random.randint(10, size=(3, 3, 5)).tolist(),
    list('XYZ'), list('ABC')
).applymap(np.array)

df.loc['X', 'B'] = np.nan
df.loc['Z', 'A'] = np.nan

element_wise_mean

df2               = df.stack().groupby(level=1)
element_wise_mean = df2.apply(np.mean, axis=0)

element_wise_sd

element_wise_sd   = df2.apply(np.std, axis=0)
TypeError: setting an array element with a sequence.

score 3 · Accepted Answer

に変換してラムダを使用してnp.stdを適用するとnumpy array、私にとってはうまくいきます：

element_wise_std = df2.apply(lambda x: np.std(np.array(x), 0))
#axis=0 is by default, so can be omit
#element_wise_std = df2.apply(lambda x: np.std(np.array(x)))
print (element_wise_std)
A                            [0.0, 2.5, 1.5, 0.0, 2.0]
B                            [4.0, 0.5, 1.0, 2.5, 0.0]
C    [2.62466929134, 2.16024689947, 2.94392028878, ...
dtype: object

またはコメントからの解決策：

element_wise_std = df2.apply(lambda x: np.std(x.values, 0))
print (element_wise_std)
A                            [0.0, 2.5, 1.5, 0.0, 2.0]
B                            [4.0, 0.5, 1.0, 2.5, 0.0]
C    [2.62466929134, 2.16024689947, 2.94392028878, ...
dtype: object

もっと説明してみます：

最初の形状変更stack- 列が追加されindex、Multiindex作成されます。

print (df.stack())
X  A    [4, 8, 1, 1, 9]
   C    [8, 2, 8, 4, 9]
Y  A    [4, 3, 4, 1, 5]
   B    [1, 2, 6, 2, 7]
   C    [7, 1, 1, 7, 8]
Z  B    [9, 3, 8, 7, 7]
   C    [2, 6, 3, 1, 9]
dtype: object

次にgroupby(level=1)、最初のレベルのMultiindex- (値、、、A)といくつかの関数Bでグループ化することを意味します。ここにあります。Capplynp.std

Pandas はarrays やリストでうまく動作しないので、変換が必要です。(バグっぽい)

python - Python:データフレーム内の複数の配列の要素ごとの標準偏差を取得する方法

2 に答える 2

Related

Reference