単純ベイズ分類器について理論的な質問があります。次のトレーニング データを使用して分類子をトレーニングしたとします。
class word count
-----------------
pos good 1
sun 1
neu tree 1
neg bad 1
sad 1
私が今、「素晴らしい太陽」を分類すると仮定します。現在、次の 2 つのオプションがあります。
1) 静的なままのトレーニングデータに対して分類します。「良い」と「太陽」の両方が肯定的なカテゴリに由来することを意味し、この文字列を肯定的に分類します。分類後、トレーニング テーブルは変更されません。したがって、すべての文字列は、トレーニング データの静的セットに対して分類されます。
2) 文字列を分類しますが、下の表のようにトレーニング データを更新します。したがって、次の文字列は、これよりも「高度な」トレーニング データのセットに対して分類されます。(自動) 分類の終わりまでに、単純なトレーニング セットとして開始されたテーブルは、多くの単語で拡張され (および更新された単語数)、サイズが大きくなります。
class word count
-----------------
pos good 2
sun 2
great 1
neu tree 1
neg bad 1
sad 1
NMB の実装では、最初の方法を使用しましたが、後者を使用する必要があったと思い直しています。教えてください:-)