python - pandas DataFrame でグループ化されたデータからヒストグラムをプロットする

Question

pandas データフレーム内のグループ化されたデータからヒストグラムのブロックをプロットする方法を考える際に、いくつかのガイダンスが必要です。私の質問を説明する例を次に示します。

from pandas import DataFrame
import numpy as np
x = ['A']*300 + ['B']*400 + ['C']*300
y = np.random.randn(1000)
df = DataFrame({'Letter':x, 'N':y})
grouped = df.groupby('Letter')

私の無知で、私はこのコードコマンドを試しました：

df.groupby('Letter').hist()

エラーメッセージ「TypeError：「str」と「float」オブジェクトを連結できません」で失敗しました

どんな助けでも大歓迎です。

score 207 · Accepted Answer

hist メソッドでbyキーワードを使用して、さらに簡単な方法を見つけました。

df['N'].hist(by=df['Letter'])

これは、グループ化されたデータをすばやくスキャンするための非常に便利な小さなショートカットです。

将来の訪問者にとって、この呼び出しの成果物は次のチャートです。ここに画像の説明を入力

score 9 · Accepted Answer

最終的に得られる groupby データフレームには階層インデックスと 2 つの列 (文字と N) があるため、関数は失敗し.hist()ます。したがって、両方の列のヒストグラムを作成しようとすると、str エラーが発生します。

これは pandas プロット関数 (列ごとに 1 つのプロット) のデフォルトの動作であるため、データフレームの形状を変更して各文字が列になるようにすると、必要なものが正確に得られます。

df.reset_index().pivot('index','Letter','N').hist()

これreset_index()は、現在のインデックスをという列に押し込むだけindexです。次に、データフレームを取得し、それぞれpivotのすべての値を収集して列にします。結果のデータフレームは 400 行 (欠損値をで埋めます) と 3 列 ( ) です。次に、列ごとに 1 つのヒストグラムを生成し、必要に応じてプロットをフォーマットします。NLetterNaNA, B, Chist()

score 8 · Accepted Answer

1 つの解決策は、グループ化された各データフレームで直接 matplotlib ヒストグラムを使用することです。ループで取得したグループをループできます。各グループはデータフレームです。そして、それぞれのヒストグラムを作成できます。

from pandas import DataFrame
import numpy as np
x = ['A']*300 + ['B']*400 + ['C']*300
y = np.random.randn(1000)
df = DataFrame({'Letter':x, 'N':y})
grouped = df.groupby('Letter')

for group in grouped:
  figure()
  matplotlib.pyplot.hist(group[1].N)
  show()

python - pandas DataFrame でグループ化されたデータからヒストグラムをプロットする

6 に答える 6

Related

Reference