2

単純なベイズ テキスト分類手法では、通常、トレーニング データ内の単語をカウントし、ドキュメントが単語の文字列である p(label | document) を計算しますか?

テキスト分類の場合、ラベルを予測するために P(label | word1、word2 など) を直接計算できないのはなぜですか? (つまり、なぜベイズ定理を使う必要があるのですか)

ドキュメントがあれば、完全なデータがあります... p(label and w1 and w2 ) / p(w1 and w2) を直接計算できるはずですか?

トレーニング セットがグラウンド トゥルースではないことに気付きました。ベイズの定理でそれを計算すれば、その問題は解決しますか? もしそうなら、どのように?数学がどのように機能するかを示すことができますか?

4

3 に答える 3

2

ベイズは、トレーニング セットとデータからの事前情報を使用して、事後確率を推定します。

「私たちは完全なデータを持っています」というのは頻度主義的な見方だと思います。

ベイズは多くの理由で頻度論的アプローチよりも改善されていますが、そのうちの 1 つは、過去の情報を使用して事後確率を改善できることです。

Doing Bayesian Data Analysis - A Tutorial Using R and BUGS を読むことをお勧めします。非常に重要なテーマを扱った素晴らしい本です。ベイズは戦争に勝った - それを徹底的に学ぶのが最善だ.

于 2012-04-11T12:10:05.647 に答える
1

「ナイーブ ベイズ」という名前は誤解を招く可能性があります。ベイズの定理を使用して値を計算していることはそれほど注目すべきことではないからです。ご指摘のとおり、ベイズの定理は条件付き確率の標準的な定義から導き出されたものなので、ベイズの定理によって与えられた答えが通常の計算と同じであることを証明できます。

洞察 (または見方によっては誤った仮定) は、ドキュメントのラベルを考えると、単語の頻度はしばしば独立しているということです。このため、P(w_1, ..., w_n | label)計算は簡単です: P(w_1, ..., w_n | label) = P(w_1 | label) * ... * P(w_n | label).

しかしもちろん、私たちは を気にしませP(w_1, ..., w_n | label)P(label | w_1, ..., w_n)。そのため、ベイズの定理を使用する必要があるため、名前が付けられました。

このようにすることで、単語の独立性に関する知識を埋め込み、より良い予測を行うことができます。生の計算だけを行った場合、独立性に関する知識をコード化する方法はありません。

(これは単純ベイズだけでなく、ベイズ ネット全般に当てはまります。利点は、変数間の関係に関する事前知識をエンコードできることです。)

于 2012-04-11T19:41:29.587 に答える
0

調べて、何人かに聞いて、考えてみました。計算しない理由:

p(ラベル | W1 = 1, W2 = 2 など) 直接

バイグラム、トライグラムなどのインデックスを保持する必要があるため、計算が困難になるためです。それでも、インデックスにゼロ回出現する単語を処理する賢い方法が必要になります。

ベイズを使用することは問題を回避する良い方法ですが、条件付きの独立性を仮定する必要があります。

また、単語がまだ右側にある別の形式に数式を取得することもできます。以下は、ベイズ式を使用した分子で始まる計算です。

p(w1 | c) * p (w2 | c) ... * p(c)

これは次のように分解できます

p(c | w1) * p(w1) / p(c) * p(c | w2) * p(w2) / p(c) ... p(c | Wn) * p(Wn) / p( c) * p(c)

これは次のように単純化されます

p(c | w1) ... p(c | Wn)*p(c)^-(n-1)*p(w1)....p(Wn)

于 2012-05-17T13:18:25.467 に答える