現在、NaiveBayesアルゴリズムを使用して電子メールフィルタリングアプリケーションを実装しています。私のアプリケーションは、UCI MachineLearningRepositoryのSpambaseデータセットを使用しています。属性は連続であるため、確率密度関数(PDF)を使用して確率を計算します。ただし、k分割交差検定を使用してデータを評価すると、トレーニングセットの属性の1つに0しか含まれない場合があります。このため、標準偏差が0になり、PDFがNaNを返し、そのトレーニングセットで大量のスパムが正しく分類されないことになります。問題を解決するにはどうすればよいですか?
1699 次