0

(x, y) サンプルで作成されたトレーニング セットがあるとします。

生成アルゴリズムを適用するには、ガウス弁別法としましょう。

p(x|y) ~ Normal(mu, sigma)すべての可能なシグマ

x ~ Normal(mu, sigma)または、 yが与えられたかどうかを知る必要がありますか?

p(x|y) が生成アルゴリズムを使用するのに十分 (しきい値まで) 多変量正規分布に従うかどうかを評価するにはどうすればよいですか?

4

1 に答える 1

5

それはたくさんの質問です。

生成アルゴリズムを適用するには、ガウス弁別としましょう。

p(x|y) ~ 可能なすべてのシグマに対する正規(mu, シグマ)

いいえ、ミューとシグマのペアについては、これが当てはまると仮定する必要があります。実際には、mu と sigma が何であるかがわからないため、それを推定する (頻度主義、最大尤度/最大事後推定) か、パラメータの推定に関する不確実性を予測に組み込む (ベイズ法) 必要があります。 )。

p(x|y) が多変量正規分布に従うかどうかを評価するにはどうすればよいですか?

古典的に、適合度検定を使用します。ただし、x の次元が一握りを超える場合、これは機能しません。これは、標準的なテストではビン内のアイテムの数が関係し、高次元で必要なビンの数は天文学的な数になるため、期待されるカウントが非常に少なくなるためです。

より良いアイデアは、次のように言うことです: x の (条件付き) 分布をモデル化するためのオプションは何ですか? モデル比較手法を使用して、これらのオプションを比較できます。モデルのチェックと比較について読んでください。

最後に、最後のポイント:

生成アルゴリズムを使用するのに(しきい値まで)十分ですか?

フィッシャーの線形判別分析や単純ベイズ分類器など、多くの生成手法のパラドックスは、モデルがデータに対して不十分であっても、分類器が非常にうまく機能することです。これが事実であるという明確な理由はありませんが、経験的に真実であると多くの人が観察しています。それが機能するかどうかは、仮定された分布がデータを非常によく説明するかどうかよりもはるかに簡単に確認できます。データをトレーニングとテストに分割して調べるだけです!

于 2013-11-15T14:15:39.917 に答える