1

現在、NaiveBayesアルゴリズムを使用して電子メールフィルタリングアプリケーションを実装しています。私のアプリケーションは、UCI MachineLearningRepositoryのSpambaseデータセットを使用しています。属性は連続であるため、確率密度関数(PDF)を使用して確率を計算します。ただし、k分割交差検定を使用してデータを評価すると、トレーニングセットの属性の1つに0しか含まれない場合があります。このため、標準偏差が0になり、PDFがNaNを返し、そのトレーニングセットで大量のスパムが正しく分類されないことになります。問題を解決するにはどうすればよいですか?

4

1 に答える 1

2

常に制限される個別のPDFを使用できます。

または、分散がゼロの属性を単に無視します。分散がゼロの分布を含めることには意味がありません。実際に何もしないからです。たとえば、あなたは私が何歳か知りたいのですが、それから私は地球に住んでいると言います。あなたが持っているすべてのデータは地球上の人々のためのものであるため、それはあなたの見積もりを変えるべきではありません。

于 2012-09-10T01:37:22.940 に答える