単純ベイズを使用して、weka の分類結果をどのように解釈できますか?
平均値、標準偏差、重量合計、精度はどのように計算されますか?
カッパ統計、平均絶対誤差、二乗平均平方根誤差などはどのように計算されますか?
混同行列の解釈は何ですか?
単純ベイズを使用して、weka の分類結果をどのように解釈できますか?
平均値、標準偏差、重量合計、精度はどのように計算されますか?
カッパ統計、平均絶対誤差、二乗平均平方根誤差などはどのように計算されますか?
混同行列の解釈は何ですか?
以下は、10 分割交差検証を使用した単純ベイズ分類器の出力例です。そこには多くの情報があり、何に注目すべきかはアプリケーションによって異なります。始めに、いくつかの結果を以下に説明します。
=== Stratified cross-validation ===
=== Summary ===
Correctly Classified Instances 71 71 %
Incorrectly Classified Instances 29 29 %
Kappa statistic 0.3108
Mean absolute error 0.3333
Root mean squared error 0.4662
Relative absolute error 69.9453 %
Root relative squared error 95.5466 %
Total Number of Instances 100
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure ROC Area Class
0.967 0.692 0.686 0.967 0.803 0.709 0
0.308 0.033 0.857 0.308 0.453 0.708 1
Weighted Avg. 0.71 0.435 0.753 0.71 0.666 0.709
=== Confusion Matrix ===
a b <-- classified as
59 2 | a = 0
27 12 | b = 1
正しく分類されたインスタンスと正しく分類されていないインスタンスは、正しく分類されたテスト インスタンスと正しく分類されていないテスト インスタンスの割合を示しています。生の数値は混同行列に表示され、クラス ラベルa
を表しています。b
ここでは 100 個のインスタンスがあったため、パーセンテージと生の数値を合計すると、aa
+ bb
= 59 + 12 = 71、ab
+ ba
= 27 + 2 = 29 になります。
正しく分類されたインスタンスのパーセンテージは、多くの場合、精度またはサンプル精度と呼ばれます。パフォーマンスの見積もりとしてはいくつかの欠点があります (偶然に修正されていない、クラスの分布に敏感でない) ため、おそらく他の数値のいくつかを確認することをお勧めします。ROC 面積、または ROC 曲線の下の面積は、私の好みの尺度です。
カッパは、分類と真のクラスの間の一致の確率補正された尺度です。これは、観察された一致から偶然に予想された一致を取り、可能な最大の一致で割ることによって計算されます。0 より大きい値は、分類子が偶然よりもうまく機能していることを意味します (実際にはそうあるべきです!)。
エラー率は、分類ではなく数値予測に使用されます。数値予測では、予測が正しいか間違っているかだけではなく、誤差には大きさがあり、これらの測定値はそれを反映しています。
うまくいけば、それがあなたを始めさせるでしょう。
michaeltwofish の答えを詳しく説明するために、残りの値に関するいくつかのメモ:
TP 率: 真陽性率 (特定のクラスとして正しく分類されたインスタンス)
FP率: 偽陽性の率 (特定のクラスとして誤って分類されたインスタンス)
精度: そのクラスに分類されたインスタンスの総数で割った真のクラスのインスタンスの割合
Recall : 特定のクラスとして分類されたインスタンスの割合を、そのクラスの実際の合計で割ったもの (TP 率に相当)
F-Measure : 2 * 精度 * 再現率 / (精度 + 再現率) として計算される精度と再現率の組み合わせ測定
ROC 面積測定に関しては、これが Weka によって出力される最も重要な値の 1 つであるという michaeltwofish に同意します。「最適な」分類器では ROC 面積値が 1 に近づき、0.5 は「ランダムな推測」に相当します (カッパ統計量 0 に似ています)。
結果を解釈する際には、データセットの「バランス」を考慮する必要があることに注意してください。不均衡に大量のインスタンスが特定のクラスに属している不均衡なデータ セットは、分類器が必ずしも特に優れているとは限らない場合でも、高い精度率につながる可能性があります。
参考文献:
この説明は、Naive Bayesの意味を明確にするのに役立ちます。変数の独立性を前提としています。これを具体的にするために、誰かがブルックリンのプロスペクト パークを歩いたかどうかを予測したいとします。かどうかについてのデータがあります。
a) ニューヨーク市に住んでいる
b) 都市に住む
Naive Bayes は、これら 2 つの変数が独立していると仮定します。しかし明らかに、彼らがニューヨークに住んでいるなら、都市にも住んでいます。(願わくば) 誰もこれらの変数でデータ サイエンスを使用しないため、これはばかげた例ですが、独立性が何を意味するかを示しています。aの場合、b。また、b でない場合は、a ではありません。
依存性があるため、ナイーブベイズの単純な仮定は成立しません。
このページは初心者に役立つかもしれません。とても助かっています。それは通り抜けます
私はジェイソン・ブラウンリーとは関係ありません。彼はセールス好きに見えますが、その利点は、初心者をターゲットにしているため、シンプルに保たれていることです。
一部のアルゴリズムでは「50050000」の各値を与えていますが、他の分類子ではこれらの値は約 49.7、87.4、98.2 などです。