bayesian - 単純ベイズ分類器のこのアプリケーションを理解する

Question

オンラインでフォローしているこの例と少し混乱しています。質問に入る前に、何か間違っている場合は修正してください。私はベイズの定理がこれであることを知っています：

P(A│B)= P(B│A) * P(A)  
         ----------             
            P(B)

私が見ている例では、分類はテキスト文書で行われています。テキストドキュメントはすべて「テロ」または「娯楽」のいずれかであるため、次のようになります。

Prior probability for either, i.e. P(A) = 0.5

次のような単語の頻度を持つ 6 つのドキュメントがあります。

ここに画像の説明を入力

この例では、ラプラス推定を適用して、各クラスに関連してこれらの単語の頻度を分類します。

ここに画像の説明を入力

したがって、私の理解では、これらの各数値は P(B|A)、つまり特定のクラス (テロリズムまたはエンターテイメント) でその単語が出現する確率を表しています。

この内訳で新しいドキュメントが届きます。

ここに画像の説明を入力

この例では、次のようにして、この新しいテキストドキュメントがテロに関連する確率を計算します。

P(Terrorism | W) = P(Terrorism) x P(kill | Terrorism) x P(bomb | Terrorism) x P(kidnap | Terrorism) x P(music | Terrorism) x P(movie | Terrorism) x P(TV | Terrorism)

これは次のようになります。

0.5 x 0.2380 x 0.1904 x 0.3333 x 0.0476 x 0.0952 x 0.0952

繰り返しますが、今まで私はフォローしていると思います。P(テロリズム | W) は、P (A|B)、P(テロリズム) = P(A) = 0.5、および P(B|A) = 上記の表の「テロリズム」のすべての結果を掛け合わせたものです。

しかし、この新しいドキュメントに適用するために、この例では、上記の P(B|A) のそれぞれを新しい周波数のべき乗で計算します。したがって、上記の計算は次のようになります。

0.5 x 0.2380^2 x 0.1904^1 x 0.3333^2 x 0.0476^0 x 0.0952^0 x 0.0952^1

そこから、彼らは私が得たいくつかの合計を計算し、答えを見つけます。私の質問は：

新しい周波数を電力として現在の P(B|A) に適用するとは、式のどこに記載されていますか?

これは私が知らない単なる統計的なものですか？これは普遍的なものですか、それとも特定の方法の例にすぎませんか? 私が見つけたすべての例は、わずかに異なるキーワードと用語を使用して、わずかに異なっていて、少し混乱しているので質問しています!

score 1 · Accepted Answer

まずは公式から

P(Terrorism | W) = P(Terrorism) x P(kill | Terrorism) x P(bomb | Terrorism) x P(kidnap | Terrorism) x P(music | Terrorism) x P(movie | Terrorism) x P(TV | Terrorism)

正しくありません。で割る必要がありますP(W)。しかし、これは後で「彼らはいくつかの合計を行う」と言ったときに処理されることをほのめかしているので、主な質問に移ることができます。

従来、テキスト分類で Naive Bayes を実行する場合、単語数ではなく、単語の存在のみを調べます。もちろんP(word | class)、トレーニング時にカウントを見積もる必要がありますが、テスト時P("music" | Terrorism)には通常、「音楽」という単語がテロリズムドキュメントに少なくとも 1 回存在する確率を意味します。

P("occurrences of kill" = 2 | Terrorism)あなたが扱っている実装が行っていることは、とは異なるものを考慮に入れようとしているようP("at least 1 occurrence of kill" | Terrorism)です。では、なぜ彼らはパワーの確率を上げてしまうのでしょうか? 彼らの推論は、P("kill" | Terrorism)（訓練時に彼らが推定した）テロリズム文書の任意の単語が「殺す」である確率を表しているようです。したがって、仮定を単純化すると、テロ文書の任意の2 番目の単語が「kill」である確率もになりP("kill" | Terrorism)ます。

これは、文書内に単語が出現しない場合にわずかな問題を残します。この方式では、対応する確率が 0 乗されます。つまり、なくなります。つまり、に近似していP("occurrences of music" = 0 | Terrorism) = 1ます。一般に、これは厳密に言えば誤りであることは明らかですP(occurrences of music" > 0 | Terrorism) = 0。しかし、長いドキュメントと数千または数万の単語がある実際の例では、ほとんどの単語はほとんどのドキュメントに含まれていません。. そのため、これらすべての確率を正確に計算することに煩わされるのではなく (これには計算コストがかかります)、ほとんどの場合、いずれにせよ分類結果が変わらないため、それらは基本的に隠蔽されます。また、計算量が多いことに加えて、数値的に不安定であることに注意してください。1 未満の数千または数万を乗算すると、アンダーフローして 0 が吐き出されるためです。対数空間でそれを行うと、数値安定性の観点から繊細に処理する必要がある数万の数を追加することになります。したがって、「累乗」スキームは本質的に不要な毛羽立ちを取り除き、計算強度を減らし、数値安定性を高めますが、それでもほぼ同じ結果が得られます。

この回答でテロリズムという言葉を多用したことで、NSAが私をテロリストだと思わないことを願っています:S

bayesian - 単純ベイズ分類器のこのアプリケーションを理解する

1 に答える 1

Related

Reference