ヒストグラムとしてプロットするとガウス形式のデータがあります。ヒストグラムの上にガウス曲線をプロットして、データがどれほど優れているかを確認したいと考えています。matplotlib の pyplot を使用しています。また、ヒストグラムを正規化したくありません。正規化されたフィットを実行できますが、正規化されていないフィットを探しています。ここで誰かがそれを行う方法を知っていますか?
ありがとう!アビナフ・クマール
ヒストグラムとしてプロットするとガウス形式のデータがあります。ヒストグラムの上にガウス曲線をプロットして、データがどれほど優れているかを確認したいと考えています。matplotlib の pyplot を使用しています。また、ヒストグラムを正規化したくありません。正規化されたフィットを実行できますが、正規化されていないフィットを探しています。ここで誰かがそれを行う方法を知っていますか?
ありがとう!アビナフ・クマール
例として:
import pylab as py
import numpy as np
from scipy import optimize
# Generate a
y = np.random.standard_normal(10000)
data = py.hist(y, bins = 100)
# Equation for Gaussian
def f(x, a, b, c):
return a * py.exp(-(x - b)**2.0 / (2 * c**2))
# Generate data from bins as a set of points
x = [0.5 * (data[1][i] + data[1][i+1]) for i in xrange(len(data[1])-1)]
y = data[0]
popt, pcov = optimize.curve_fit(f, x, y)
x_fit = py.linspace(x[0], x[-1], 100)
y_fit = f(x_fit, *popt)
plot(x_fit, y_fit, lw=4, color="r")
これにより、ガウス プロットが分布に適合します。 を使用しpcov
て、適合度の定量的な数値を示す必要があります。
データがどの程度ガウス分布であるかを判断するより良い方法は、ピアソンのカイ 2 乗検定です。理解するにはある程度の練習が必要ですが、非常に強力なツールです。
私が知っている古い投稿ですが、これを行うためのコードを提供したかったのですが、これは単に「領域ごとの修正」トリックを行います:
from scipy.stats import norm
from numpy import linspace
from pylab import plot,show,hist
def PlotHistNorm(data, log=False):
# distribution fitting
param = norm.fit(data)
mean = param[0]
sd = param[1]
#Set large limits
xlims = [-6*sd+mean, 6*sd+mean]
#Plot histogram
histdata = hist(data,bins=12,alpha=.3,log=log)
#Generate X points
x = linspace(xlims[0],xlims[1],500)
#Get Y points via Normal PDF with fitted parameters
pdf_fitted = norm.pdf(x,loc=mean,scale=sd)
#Get histogram data, in this case bin edges
xh = [0.5 * (histdata[1][r] + histdata[1][r+1]) for r in xrange(len(histdata[1])-1)]
#Get bin width from this
binwidth = (max(xh) - min(xh)) / len(histdata[1])
#Scale the fitted PDF by area of the histogram
pdf_fitted = pdf_fitted * (len(data) * binwidth)
#Plot PDF
plot(x,pdf_fitted,'r-')
これを行う別の方法は、正規化されたフィットを見つけ、正規分布に (bin_width*データの合計長) を掛けることです。
これにより、正規分布が正規化されなくなります