1

単純ベイズ分類子の実装、特にゼロ カウントの問題とオーバーフィッティングを回避するためのラプラス スムージングの実装に関する確率/統計に関する質問があります。

私が読んだことから、MLE を使用した基本的な NBC 式は次のようになります。

p(C│F_1 ...F_n )=(p(C)p(F_1 |C)...p(F_n |C))/(p(F_1)...p(F_n))

ただし、p(F_i |C) の 1 つが 0 の場合、全体の確率は 0 になります。1 つの解は Lapace Smooth です。

p(F_i│C)~(x_i+k)/(N+kd)

ここで、x_i は F_i がクラス C に出現した回数、N はクラス C が出現した回数、d は F_i が取ることがわかっている個別の値の数です。

私の質問はこれです:

分子の p(C) と分母の p(F_i) に対して何かを行う必要がある場合はどうすればよいでしょうか?

4

1 に答える 1

2

f = (f_1 ... f_n) とします。ラプラス平滑化は、クラス尤度項 p(f|C) に影響します。p(C) より前のクラスには影響しません。次の意味で、f の周辺確率に影響を与えます。

p(f) = \sum_c p(C) * p(f|C)

これにより、ラプラス平滑化を行っている場合とそうでない場合では、項 p(f|C) が異なります。しかし、分母はすべての C で一定であるため、とにかくこれを評価する必要はありません。

PS これは実際にはプログラミングの質問ではありません!

于 2012-12-04T16:43:21.173 に答える