8

「MATLABのデータの周りの楕円」という質問に対して、Amroの回答では、次のように述べています。

「楕円が特定のレベルの標準偏差を表すようにしたい場合、正しい方法は共分散行列をスケーリングすることです。」

そしてそれをスケーリングするためのコードは次のように与えられました

STD = 2;                     %# 2 standard deviations
conf = 2*normcdf(STD)-1;     %# covers around 95% of population
scale = chi2inv(conf,2);     %# inverse chi-squared with dof=#dimensions

Cov = cov(X0) * scale;
[V D] = eig(Cov);

上記のコードスニペットの最初の3行がわかりません。スケールはによってどのように計算されchi2inv(conf,2)、それを共変量行列で乗算することの背後にある理論的根拠は何ですか?

追加の質問:

また、1.5 STD、つまり86%のタイルでスケーリングすると、ほとんどすべての場合で、楕円がすべてのポイントをカバーでき、ポイントセットがまとまっていることがわかりました。一方、3 STD、つまり99%タイルでスケーリングすると、楕円が大きすぎます。それでは、どうすれば凝集点をしっかりとカバーするSTDを選択できますか?

次に例を示します。

内側の楕円は1.5STDに対応し、外側の楕円は2.5STDに対応します。1.5 STDが凝集している白色点をしっかりとカバーしているのはなぜですか?それを定義するためのアプローチや理由はありますか?

ここに画像の説明を入力してください

4

1 に答える 1

12

データポイントの周りに楕円を表示する目的は、信頼区間、つまり「平均から特定の標準偏差の範囲内にあるデータの量」を示すことです。

上記のコードでは、データポイントの95%をカバーする楕円を表示することを選択しました。正規分布の場合、データの約67%が平均から1 sd離れており、約95%が2 sd以内、約99%が3 sd以内です(数値は頭から離れていますが、これは次の方法で簡単に確認できます。曲線の下の面積を計算します)。したがって、STD=2;あなたが見つける値confは約0.95です。

データの重心からのデータポイントの距離は、(xi^2+yi^2)^0.5係数を無視すると、のようになります。確率変数の二乗和はカイ二乗分布に従うため、対応する95パーセンタイルを取得するには、2つの変数があるため、dof2を使用した逆カイ二乗関数を使用します。

最後に、スケーリング定数を乗算する背後にある理論的根拠は、固有値を持つA正方行列の場合、行列の固有値(ここで、はスカラー)は単純であるという事実に基づいています。固有値は、楕円の長軸/短軸の対応する長さを示します。したがって、楕円または固有値を95%タイルにスケーリングすることは、共分散行列にスケーリング係数を乗算することと同じです。a1,...,ankAkka1,...,kan

編集

チェン、あなたはすでにこれを知っているかもしれませんが、私はあなたがランダム性に関する質問へのこの答えも読むことをお勧めします。平均がゼロで、単位分散がゼロのガウス確率変数について考えてみます。このような確率変数のコレクションのPDFは次のようになります

ここに画像の説明を入力してください

さて、このような確率変数のコレクションを2つ取り、それらを別々に二乗し、それらを追加して新しい確率変数の単一のコレクションを形成するとすると、その分布は次のようになります。

ここに画像の説明を入力してください

これは、2自由度のカイ2乗分布です(2つのコレクションを追加したため)。

上記のコードの楕円の方程式は、と書くことができますx^2/a^2 +y^2/b^2=k。ここでxyは2つの確率変数でaありb、長軸と短軸であり、計算kする必要のあるスケーリング定数です。ご覧のとおり、上記はガウス確率変数の2つのコレクションを二乗して追加することと解釈でき、その分布がどのように見えるかを上で見ました。kつまり、これは2自由度のカイ2乗分布の確率変数であると言えます。

kここで行う必要があるのは、データの95%ileがその中にあるような値を見つけることだけです。1s.d、2s.d、3s.dと同じように。ガウス分布に精通しているパーセンタイル、2自由度のカイ2乗の95%タイルは約6.18です。これは、Amroが関数から取得するchi2invものです。彼は同じようによく書かれている可能性がscale=chi2inv(0.95,2)あり、それは同じだったでしょう。n平均から離れたsdの観点から話すのは直感的です。

説明のために、上記のカイ2乗分布のPDFを示します。ここでは、領域の95%<一部xが赤で網掛けされています。これxは〜6.18です。

ここに画像の説明を入力してください

これがお役に立てば幸いです。

于 2011-04-06T19:15:29.887 に答える