単純な単純ベイズ分類器を実装していますが、クラスの条件付き確率 (P(d|c))を適切に計算する方法がわかりませんでした。完全を期すために、使用されている用語について簡単に説明したいと思います。単純ベイズ確率は次のように計算されます。
c は任意のクラスを表し、d はドキュメントです。x = {x1,x2,...,xn} を n 個の特徴のリスト (例: 50 個の最も頻繁なバイグラム) とします。
私のトレーニング セットには i 個のクラス (c_i というフォルダーで表される) があり、それぞれに k 個のドキュメント (通常のテキスト ファイルで表される) があります。
事前確率 P(c)は簡単に計算できます。
今、私はP(d|c)を計算したいと思います。これは
P(x_i|c) の計算方法がよくわかりません。機能 x_i (バイグラム "th" としましょう) を取り上げ、それがクラス c にどのくらいの頻度で出現するかを確認します。しかし、どうすればいいですか?各クラスは k 個のドキュメントで表されます。これらすべてのファイルを連結する必要がありますか? 後で、「すべての機能の合計数」で割る必要があります。これは、すべての (連結された) ドキュメントにおけるバイグラム「th」の頻度でしょうか?