単語の合計回数ではなく、単語が出現するドキュメントの数を数えると、モデルがより正確に分類されると思います。言い換えると
「MentionsFruit」の分類:
"私はバナナが好き。"
重さはそれ以上または以下でなければなりません
「バナナ!バナナ!バナナ!私はそれらが好きです。」
したがって、あなたの質問に対する答えは100/200=0.5になります。
ウィキペディアの文書分類の説明も私の結論を裏付けています
次に、クラスCが与えられた場合、特定のドキュメントDにすべての単語Wが含まれる確率は次のようになります。
http://en.wikipedia.org/wiki/Naive_Bayes_classifier
言い換えると、ドキュメント分類アルゴリズムWikipediaは、特定のドキュメントに含まれる分類単語のリストの数をテストします。
ちなみに、より高度な分類アルゴリズムでは、各単語だけでなく、N単語のシーケンスを調べます。ここで、Nは、計算に使用するCPUリソースの量に基づいて設定できます。
アップデート
私の直接の経験は短い文書に基づいています。@BenAllisonがコメントで指摘している調査を強調したいと思います。これは、私の回答が長いドキュメントでは無効であることを示唆しています。具体的には
1つの弱点は、用語の有無のみを考慮することにより、BIMが用語の頻度に固有の情報を無視することです。たとえば、すべてが等しい場合、単語の1回の出現がドキュメントがクラスに属することの良い手がかりである場合、5回の出現はさらに予測可能であると予想されます。
関連する問題は、ドキュメントの長さに関するものです。ドキュメントが長くなると、使用される個別の単語の数、つまりBIMで1に等しいx(j)の値の数が一般的に増加します。
http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.46.1529