カイ二乗ベースの基準を使用して、誤差の正規分布の適合度を推定しようとしています。
具体的には、サンプルがあり、見積もりです。そこから、おおよその誤差を計算します。ここで、これらの誤差を新しい、正規分布と仮定された) 観測値 O として使用します。ここで、予想される理論上の観測値 E は、これらの誤差の平均値または 0 (推定値を完全にする必要があります) のいずれかです。
https://en.wikipedia.org/wiki/Goodness_of_fitカイ 2 乗統計を使用すると、完全に適合するために 1 に等しくなるはずですが、アプリオリには期待できません。
おおよその適合が必要で、得られるのはカイ二乗統計値で、~1.3 - 1.5 です。小さなサンプルでは、これらは時々 2-3 になります。
これは耐えられる適合と見なされますか?
これをPythonで実装したので、コードは
def chi_squared(error,mean,var,N,n):
return ((error)**2/var).sum(0)/(N - n - 1)
また
def chi_squared(error,mean,var,N,n):
return ((error - mean)**2/var).sum(0)/(N - n - 1)
ここで、N は観測数 (len(error)) であり、n = 2 (適合しようとしている平均値と変数値のパラメーターの数) です。
ガウス分布を近似するのに十分な統計 (少なくとも 10 サンプルなど) が必要なため、6 ~ 8 個の観測値でかなりうまく機能します (少なくとも 10 サンプルなど)。 .
データのサンプル:
[-0.626637 -0.466102 0.235232 -1.803282 -0.376370 -0.891675 -0.347168 0.000000]
ここから、平均と var を計算し、上記の手順を適用します (私の真のデータは、各列が上記のようにシリーズを含む pd.DF であるため、.sum(0) です。他のデータ型を使用する場合は、sum() で使用できます)。 )
@tom からのコメントに従います。使用しているデータはカテゴリではなく数値であるため、scipy.stats.chisquare を使用することは不可能です。Python から直接行う方法がない限り、カイ統計量と p 値を自分で計算する必要があるようです。
前もって感謝します。