0

次の確率を見つけたい:

P(y=1/n=k; thetha) 

として読む:

確率、予測はクラス1であり、単語数= kであり、thethaによってパラメーター化されます。

従来の分類には条件付き確率がありません(右)

P(y = 1; thetha) 

どうすればこれを解決できますか?

編集:

たとえば、添付ファイルの数に基づいて、電子メールがスパムであるかどうかを予測したいとします。y=1スパムを示し、y=0非スパムにしましょう。

それで、

P(y = 1/num_attachements=0; some attributes)
and so on!!

意味がありますか?

4

2 に答える 2

1

NaiveBaisean分類器を使用します。自分ですばやくコーディングすることも、nltkライブラリを使用/確認することもできます。

于 2012-02-23T23:46:03.407 に答える
1

通常、添付ファイルの数は単なる別の属性であるため、確率は次のようになります。

P(y = 1 | all attributes)

ただし、アタッチメントを特別に処理する場合(たとえば、他の属性が数値で、アタッチメントがブール値である場合)、それらを個別に計算してから、次のように組み合わせることができます。

P(C|A, B) = P(C|A) * P(C|B) / P(C)

ここで、Cはイベントを表しy = 1A-添付ファイルおよびBその他の属性を表します。

いくつかのNaveBayes分類子の説明については、このペーパーを参照してください。

于 2012-02-24T00:07:32.250 に答える