1

4つの行列に格納されている4つの異なるメソッドからの生成(q)値があります。4つの行列のそれぞれには、次のような異なるメソッドからのq値が含まれています。

Matrix_1 = 1 row x 20 column 

Matrix_2 = 100 rows x 20 columns 

Matrix_3 = 100 rows x 20 columns 

Matrix_4 = 100 rows x 20 columns 

列の数は年数を示します。1行には、20年に対応する生産値が含まれます。行列2、3、および4の他の99行は、異なる実現(またはシミュレーションの実行)です。したがって、基本的に、行列2、3、および4の他の99行は繰り返しの場合です(ただし、乱数のために正確な値ではありません)。

参照Matrix_1の真理(または基本ケース)と見なします。ここで、他の3つの行列をと比較して、Matrix_1これら3つの行列(それぞれ100回の繰り返し)のどれがと最もよく比較されるか、または厳密に模倣するかを確認しMatrix_1ます。

これはMatlabでどのように行うことができますか?

手動で、をプロットし、、、およびmean of Matrix_1の各分布を描画することで信頼区間(CI)を使用することを知っています。参照真理(または)を含む行列2、3、および4の中で最大のCIが答えになります。mean of Matrix_2mean of Matrix_3mean of Matrix_4mean of Matrix_1

mean of Matrix_1 = (1 row x 1 column)

mean of Matrix_2 = (100 rows x 1 column)

mean of Matrix_3 = (100 rows x 1 column)

mean of Matrix_4 = (100 rows x 1 column)

質問が明確で、SOに関連していることを願っています。それ以外の場合は、問題のあるものを編集/提案してください。ありがとう!

編集:私が話した私の3つの方法は、それぞれa1、a2、a3です。これが私の結果です:

ci_a1 =

  1.0e+008 *

   4.084733001497999
   4.097677503988565

ci_a2 =

  1.0e+008 *

   5.424396063219890
   5.586301025525149

ci_a3 =

  1.0e+008 *

   2.429145282593182
   2.838897116739112

p_a1 =

    8.094614835195452e-130

p_a2 =

    2.824626709966993e-072

p_a3 =

    3.054667629953656e-012

h_a1 = 1; h_a2 = 1;  h_a3 = 1

3つの方法から、私のCIのどれもそのmean ( = 3.454992884900722e+008)中に含まれていません。では、最良の結果を選択するために、p値を考慮しますか?

4

2 に答える 2

2

私が正しく理解していれば、MATLABでの計算はかなり単純明快です。

ステップ1-2(平均計算):

k1_mean = mean(k1);
k2_mean = mean(k2);
k3_mean = mean(k3);
k4_mean = mean(k4);

ステップ3、HISTを使用して分布ヒストグラムをプロットします。

hist([k2_mean; k3_mean; k4_mean]')

ステップ4.平均k1_meanと未知の分散を持つ正規分布に対して、ベクトル2、3、および4を比較するt検定を実行できます。詳細については、 TTESTを参照してください。

[h,p,ci] = ttest(k2_mean,k1_mean);
于 2010-09-25T06:46:24.313 に答える
2

編集:私はあなたの質問を誤解しました。Yukの回答と以下のコメントを参照してください。私の答えは、ベクトルではなく2つのベクトルの分布を単一の値と比較したい場合に必要なものです。どうやら、後者はここに当てはまります。

t検定に関しては、「真の」平均に対して検定することを覚えておく必要があります。各行列の値の数と信頼区間を考えると、結果の標準偏差を推測することはそれほど難しくありません。これは、結果の「広がり」の尺度です。これで、平均の誤差は、結果の標準偏差を観測数で割ったものとして計算されます。そして、信頼区間は、その標準誤差にappxを掛けることによって計算されます。2.2。

この信頼区間には、95%のケースの真の平均が含まれています。したがって、真の平均が正確にその間隔の境界にある場合、p値は0.05であり、平均から離れるほど、p値は低くなります。これは、行列2、3、または4にある値が、行列1のような平均を持つ母集団に由来する可能性として解釈できます。p値を見ると、これらの可能性は存在しないと言えます。

したがって、値の数が多くなると、信頼区間が小さくなり、t検定が非常に敏感になることがわかります。これが示すことは、3つの行列が平均と大幅に異なることだけです。いずれかを選択する必要がある場合は、とにかくディストリビューションを調べます。そうでなければ、最も近い平均を持つものは良い推測のようです。これについてさらに深く知りたい場合は、stats.stackexchange.comで質問することもできます。


あなたの質問とあなたの方法は本当に明確ではありません:

  • 分布はすべての列で等しいですか?2つの分布の平均は同じである可能性がありますが、大幅に異なるため、これは重要です。

代替テキスト

  • 中心極限定理を使用しない理由はありますか?これは、平均の分布がsd(mean)= sd(observations)/ofobservationsである正規分布に近づくという事実を使用して簡単に見つけることができる結果を取得する非常に複雑な方法のように思えます。ディストリビューションが似ている場合は、かなりの作業を節約できます。-

ここで、質問が実際に分布の比較である場合は、一般的な考え方についてはqqplotを、正式なテストについては2サンプルのコルモゴロフ-スミルノフ検定を検討する必要があります。ただし、結果を正しく解釈するには、テストの機能を理解する必要があるため、このテストを読んでください。

補足:この検定を複数のケースで行う場合は、多重比較の問題を理解し、適切な修正を使用するようにしてください。ボンフェローニまたはダンシダック。

于 2010-09-28T11:17:18.030 に答える