machine-learning - 単純ベイズの結果の解釈

Question

分類にNaiveBayes/Simple classifier (Weka)を使い始めましたが、データのトレーニング中に理解しなければならない問題がいくつかあります。私が使用しているデータセットは weather.nominal.arff です。

代替テキスト

オプションからトレーニングテストを使用すると、分類器の結果は次のようになります。

Correctly Classified Instances 13  -  92.8571 %    
Incorrectly Classified Instances 1 - 7.1429 %   

a b classified as  
9 0  a =yes
1 4  b = no

私の最初の質問は、誤って分類されたインスタンスから何を理解する必要がありますか? なぜこのような問題が発生したのでしょうか。どの属性コレクションが正しく分類されていませんか? これを理解する方法はありますか？

第 2 に、10 倍の交差検証を試みると、正しく分類されていない (少ない) インスタンスが得られるのはなぜですか?

結果は次のとおりです。

Correctly Classified Instances           8               57.1429 %
Incorrectly Classified Instances         6               42.8571 %

 a b   <-- classified as
 7 2 | a = yes
 4 1 | b = no

score 8 · Accepted Answer

次の中からこのオプションを選択すると、各インスタンスの個々の予測を取得できます。

その他のオプション... > 出力予測 > 平文

これにより、評価指標に加えて、次のことが得られます。

=== Predictions on training set ===

 inst#     actual  predicted error prediction
     1       2:no       2:no       0.704 
     2       2:no       2:no       0.847 
     3      1:yes      1:yes       0.737 
     4      1:yes      1:yes       0.554 
     5      1:yes      1:yes       0.867 
     6       2:no      1:yes   +   0.737 
     7      1:yes      1:yes       0.913 
     8       2:no       2:no       0.588 
     9      1:yes      1:yes       0.786 
    10      1:yes      1:yes       0.845 
    11      1:yes      1:yes       0.568 
    12      1:yes      1:yes       0.667 
    13      1:yes      1:yes       0.925 
    14       2:no       2:no       0.652

これは、6 番目のインスタンスが誤分類されたことを示しています。同じインスタンスでトレーニングとテストを行ったとしても、データの不一致が原因で誤分類が発生する可能性があることに注意してください (最も単純な例は、同じ機能を持つが異なるクラスラベルを持つ 2 つのインスタンスを持つことです)。

上記のテスト方法には偏りがあることに注意してください (質問への回答が表示されるため、ややごまかしています)。したがって、通常、目に見えないデータのモデルエラーのより現実的な推定値を取得することに関心があります。交差検証はそのような手法の 1 つで、データを 10 層化されたフォールドに分割し、1 つのフォールドでテストを実行しながら、他の 9 つのフォールドでトレーニングを行い、最終的に 10 回の実行の平均精度を報告します。

machine-learning - 単純ベイズの結果の解釈

1 に答える 1

Related

Reference