statistics - 機械学習-分類アルゴリズム

Question

次の確率を見つけたい：

P(y=1/n=k; thetha)

として読む：

確率、予測はクラス1であり、単語数= kであり、thethaによってパラメーター化されます。

従来の分類には条件付き確率がありません（右）

P(y = 1; thetha)

どうすればこれを解決できますか？

編集：

たとえば、添付ファイルの数に基づいて、電子メールがスパムであるかどうかを予測したいとします。y=1スパムを示し、y=0非スパムにしましょう。

それで、

P(y = 1/num_attachements=0; some attributes)
and so on!!

意味がありますか？

score 1 · Accepted Answer

NaiveBaisean分類器を使用します。自分ですばやくコーディングすることも、nltkライブラリを使用/確認することもできます。

score 1 · Accepted Answer

通常、添付ファイルの数は単なる別の属性であるため、確率は次のようになります。

P(y = 1 | all attributes)

ただし、アタッチメントを特別に処理する場合（たとえば、他の属性が数値で、アタッチメントがブール値である場合）、それらを個別に計算してから、次のように組み合わせることができます。

P(C|A, B) = P(C|A) * P(C|B) / P(C)

ここで、Cはイベントを表しy = 1、A-添付ファイルおよびBその他の属性を表します。

いくつかのNaveBayes分類子の説明については、このペーパーを参照してください。

2 に答える 2