6

線形判別分析を 2 クラスの問題に適用しようとしています。私が理解している限り、LDA は両方のクラスが同じ共分散行列を持っていると仮定してから、異なる手段でガウス分布として尤度をモデル化します。

私が試した別の分類器は、ナイーブ ベイジアンです。予測変数間の相関は無視されます。

データセットに PCA を適用するとどうなるかわかりません。まさにその定義により、PCA アルゴリズムは、共分散行列が対角になるようにデータを回転させます。ローテーションで失われるものは何もありませんが、共分散行列が対角になっているため、素朴なベイジアンは LDA と同じか、それよりも優れているべきではないでしょうか? それでも、私のデータでは、単純ベイズは、PCA の有無にかかわらず、LDA よりも優れています。

実際、すべての主成分を使用する限り、データはまったく同じであり、結果が実際にそのままであることがわかります。それでも共分散行列は対角線です...脳のメルトダウン

誰かが私にこれを説明できますか?私の質問を十分に明確に表現したことを願っています。ありがとうございました!

4

3 に答える 3

6

PCA は次元削減に役立ちます (たとえば、トレーニング セットのサイズがデータの次元数に対して小さすぎる場合)。しかし、すべての主成分を使用している場合、PCA は線形分類器の結果を改善しません。クラスが元のデータ空間で線形に分離できなかった場合、PCA を介して座標を回転させてもそれは変わりません。

PCA に関するもう 1 つの注意点は、クラス ラベルに関係なく、サンプル セット全体の統計に基づいて座標回転を計算することです。クラスが (PCA の前後の両方で) 完全に線形に分離可能である場合でも、変換された座標のそれぞれによって独立して分離可能であることを意味するわけではありません (つまり、線形決定境界は、変換された座標のいずれとも平行ではありません)。座標軸)。そのような状況では、定義上、各軸を個別に処理するため、Naive Bayes の精度は低くなると思います。

于 2012-08-30T13:12:04.043 に答える
1

私の知る限り、PCA 自体は変数間の依存関係を排除せず、データの再パラメータ化を見つけるだけです。その後、いくつかの上位分散次元を除いてすべて破棄すると (次元削減と呼ばれます)、これが役立つ場合があります。ただし、クラスが 2 つしかなく、相互に依存する機能が多く、識別分類子を使用する設定では、PCA+ベイよりもうまく機能する可能性があると思います。

于 2012-08-30T08:30:35.340 に答える
0

@bogatronナイーブベイズは問題が次元の1つで線形分離可能であることを必要としないことを指摘するだけです。3 次元空間での 2 クラスの問題では、決定境界はオンです。

p(x|1)p(y|1)p(z|1) = p(x|2)p(y|2)p(z|2) 

その前に一様な仮説を仮定すると

P(M1)=P(M2)=0.5. 

の特定の形式によってはp(.|1) and p(.|2)、境界が複雑で非線形になり、どの軸にも平行にならない場合があります。

于 2013-03-12T06:55:21.990 に答える