私はスパム フィルター マイニング プロジェクトに取り組んでおり、現在 NaiveBayesMultinomial 分類子を使用して、単語の出現頻度を数えることでスパムを非スパムから分類しています。
問題は、WEKA がデフォルトで分類のしきい値を 0.5 に設定していることです。ただし、非スパムをスパムとして誤分類することは、その逆よりも有害です。
混同行列がどのように変化するかを確認するために、WEKA の NaiveBayesMultinomial アルゴリズムのしきい値を調整したいと考えています。それが直接不可能な場合、WEKA からの出力を利用して、別のしきい値の混同行列を計算するにはどうすればよいですか?
テスト分割で評価したときのプロジェクトの現在の結果の概要は次のとおりです。
概要:
Correctly Classified Instances 2715 98.4766 %
Incorrectly Classified Instances 42 1.5234 %
Kappa statistic 0.9679
Mean absolute error 0.0184
Root mean squared error 0.1136
Relative absolute error 3.8317 %
Root relative squared error 23.2509 %
Total Number of Instances 2757 `
クラス別の詳細な精度:
TP Rate FP Rate Precision Recall F-Measure ROC Area Class
0.998 0.035 0.978 0.998 0.988 0.998 ham
0.965 0.002 0.996 0.965 0.98 0.999 spam
Weighted Avg. 0.985 0.022 0.985 0.985 0.985 0.998
混同マトリックス:
a b <-- classified as
1669 4 | a = ham
38 1046 | b = spam