@nate (+1) のアプローチは、間違いなくこの問題に対処するための 1 つの可能な方法です。ただし、私の統計学者は、次の代替案を提案することを余儀なくされています (残念ながら、統計ツールボックスが必要ですが、学生版を持っている場合はこれがあります)。
データが正規 (多変量正規ではない) である場合、Jarque-Bera検定の使用を検討してください。
Jarque-Bera は、特定のデータセットが正規分布によって生成されるという帰無仮説と、それが他の分布によって生成されるという対立仮説を検定します。Jarque-Bera 検定の統計量がある臨界値よりも小さい場合、帰無仮説を棄却できません。
では、これは適合度の問題にどのように役立つのでしょうか? 検定統計量が大きいほど、データはより「非正規」になります。検定統計量が小さいほど、データはより「正常」です。
したがって、行列を 2 つのベクトルに変換したと仮定するA
とB
(質問で指定した次元に基づいて、それぞれが 1600 x 1 である必要があります)、次のことができます。
%# Build sample data
A = randn(1600, 1);
B = rand(1600, 1);
%# Perform JB test
[ANormal, ~, AStat] = jbtest(A);
[BNormal, ~, BStat] = jbtest(B);
%# Display result
if AStat < BStat
disp('A is closer to normal');
else
disp('B is closer to normal');
end
このようにすることのちょっとしたおまけとしてANormal
、標本が正規分布に属している、または正規分布から来てBNormal
いるという帰無仮説を棄却できるか、棄却できないかがわかります! 具体的には、が 1 の場合、null を拒否できません (つまり、テスト統計は、それがおそらく Normal から引き出されたことを示しています)。が 0 の場合、データはおそらく正規分布から生成されていません。A
B
ANormal
A
ANormal
A
注意:ここで提唱したアプローチは、A
とB
が同じサイズの場合にのみ有効ですが、質問でそれらが同じであると示しました :-)