1

私は Octave を使用しており、Octave forge Statistics パッケージの anderson_darling_test を使用して、データの 2 つのベクトルが同じ統計分布から抽出されているかどうかをテストしたいと考えています。さらに、参照分布が「正常」である可能性は低いです。この参照分布は既知の分布であり、上記の関数のヘルプから取得したものです。"

したがって、私の質問は次のとおりです。データ値を参照分布の CDF 値に変換するにはどうすればよいですか?

問題の背景情報: 生データ値のベクトルがあり、そこから循環成分を抽出します (これが参照分布になります)。次に、この周期的なコンポーネントを生データ自体と比較して、生データが本質的に周期的であるかどうかを確認したいと思います。2 つが同じであるという帰無仮説を棄却できる場合、生データの動きのほとんどは周期的な影響によるものではなく、トレンドまたは単なるノイズによるものであることがわかります。

4

2 に答える 2

0

たとえば、データに特定の分布がある場合beta(3,3)

p = betacdf(x, 3, 3)

CDFの定義により均一になります。通常に変換したい場合は、逆CDF関数を呼び出すだけです。

x=norminv(p,0,1)

制服にp。変換したら、お気に入りのテストを使用します。あなたのデータを理解できるかどうかはわかりませんが、代わりにコルモゴロフ-スミルノフ検定を使用することを検討してください。これは、分布の同等性のノンパラメトリック検定です。

于 2010-02-01T06:39:39.150 に答える
0

あなたのアプローチは複数の方法で誤った方向に進んでいます。いくつかのポイント:

  • Octave forgeに実装されているアンダーソン-ダーリング検定は、1サンプルの検定です。1つのデータベクトルと参照分布が必要です。分布は既知である必要があります-データからではありません。CDFの使用と、組み込まれていないディストリビューションの「ユニフォーム」オプションについてヘルプファイルを正しく引用している間、同じヘルプファイルの次の文を無視しています。

分布パラメーターがデータ自体から推定される場合は、「均一」を使用しないでください。これにより、A^2統計がより小さな値に大きく偏ります。

だから、それをしないでください。

  • 適切な2サンプルのアンダーソン-ダーリング検定またはコルモゴロフ-スミルノフ検定を実装する関数を見つけたり作成したりした場合でも、いくつかの問題が残ります。

    1. サンプル(データとデータから推定された循環部分)は独立しておらず、これらのテストは独立していることを前提としています。

    2. あなたの説明を考えると、私はある種の時間予測が関係していると思います。したがって、分布が一致する場合でも、分布の比較は時間の経過とともに崩壊するため、同じ時点で一致することを意味するわけではありません。

    3. 周期的傾向+誤差の分布は、周期的傾向のみの分布と同じであるとは期待されません。トレンドがsin(t)であると仮定します。その後、1を超えることはありません。次に、標準偏差0.1(小さいため、傾向が支配的)の正規分布のランダム誤差項を追加します。明らかに、1をはるかに超える値を取得できます。

適切なことを理解するのに十分な情報がありません。とにかく、それは実際にはプログラミングの問題ではありません。時系列理論を調べてください-循環成分の分離はそこでの主要なトピックです。しかし、多くの合理的な分析はおそらく残差に基づいています:(観測値-周期的成分から予測)。自己相関やその他の複雑さに注意する必要がありますが、少なくともそれは正しい方向への動きになります。

于 2010-02-01T14:21:23.723 に答える