weka - Weka ロジスティック回帰の出力を解釈する方法は?

Question

Weka ライブラリの weka.classifiers.functions.Logistic によって生成されたロジスティック回帰の結果の解釈を手伝ってください。

Weka の例の数値データを使用します。

@relation weather

@attribute outlook {sunny, overcast, rainy}
@attribute temperature real
@attribute humidity real
@attribute windy {TRUE, FALSE}
@attribute play {yes, no}

@data
sunny,85,85,FALSE,no
sunny,80,90,TRUE,no
overcast,83,86,FALSE,yes
rainy,70,96,FALSE,yes
rainy,68,80,FALSE,yes
rainy,65,70,TRUE,no
overcast,64,65,TRUE,yes
sunny,72,95,FALSE,no
sunny,69,70,FALSE,yes
rainy,75,80,FALSE,yes
sunny,75,70,TRUE,yes
overcast,72,90,TRUE,yes
overcast,81,75,FALSE,yes
rainy,71,91,TRUE,no

ロジスティック回帰モデルを作成するには、次のコマンドを使用します: java -cp $WEKA_INS/weka.jar weka.classifiers.functions.Logistic -t $WEKA_INS/data/weather.numeric.arff -T $WEKA_INS/data/weather.numeric.arff - d ./weather.numeric.model.arff

ここで、3 つの引数の意味は次のとおりです。

-t <name of training file> : Sets training file.
-T <name of test file> : Sets test file. 
-d <name of output file> : Sets model output file.

上記のコマンドを実行すると、次の出力が生成されます。

Logistic Regression with ridge parameter of 1.0E-8
Coefficients...
              Class
Variable                    yes
===============================
outlook=sunny           -6.4257
outlook=overcast        13.5922
outlook=rainy           -5.6562
temperature             -0.0776
humidity                -0.1556
windy                    3.7317
Intercept                22.234

Odds Ratios...
              Class
Variable                    yes
===============================
outlook=sunny            0.0016
outlook=overcast    799848.4264
outlook=rainy            0.0035
temperature              0.9254
humidity                 0.8559
windy                   41.7508


Time taken to build model: 0.05 seconds
Time taken to test model on training data: 0 seconds

=== Error on training data ===
Correctly Classified Instances          11               78.5714 %
Incorrectly Classified Instances         3               21.4286 %
Kappa statistic                          0.5532
Mean absolute error                      0.2066
Root mean squared error                  0.3273
Relative absolute error                 44.4963 %
Root relative squared error             68.2597 %
Total Number of Instances               14     

=== Confusion Matrix ===
 a b   <-- classified as
 7 2 | a = yes
 1 4 | b = no

質問:

1) レポートの最初のセクション:

Coefficients...
              Class
Variable                    yes
===============================
outlook=sunny           -6.4257
outlook=overcast        13.5922
outlook=rainy           -5.6562
temperature             -0.0776
humidity                -0.1556
windy                    3.7317
Intercept                22.234

1.1) 「係数」は実際には各属性に適用される重みであり、それらを加算して「はい」に等しいクラス属性「再生」の値を生成することを理解していますか?

2) レポートの 2 番目のセクション:

Odds Ratios...
              Class
Variable                    yes
===============================
outlook=sunny            0.0016
outlook=overcast    799848.4264
outlook=rainy            0.0035
temperature              0.9254
humidity                 0.8559
windy                   41.7508

2.1) 「オッズ比」とはどういう意味ですか? 2.2) それらはすべて「yes」に等しいクラス属性「play」にも関連していますか? 2.3) 「outlook=overcast」の値が「outlook=sunny」の値よりも大きいのはなぜですか?

3)

=== Confusion Matrix ===
 a b   <-- classified as
 7 2 | a = yes
 1 4 | b = no

3.1) Confusion Matrix の意味は何ですか?

助けてくれてどうもありがとう！

score 12 · Accepted Answer

質問：

以下のコメントから更新:係数は実際には、確率を取得するためにロジスティック関数 1/(1+exp(-weighted_sum)) にプラグインされる各属性に適用される重みです。「Intercept」値は、変数を加算する前に、変数を乗算せずに合計に追加されることに注意してください。 結果は、新しいインスタンスがクラス yes に属する確率です(> 0.5 は yes を意味します)。
オッズ比は、その値の変化 (またはその値への変化) が予測に与える影響の大きさを示します。このリンクは、オッズ比を説明する素晴らしい仕事をしていると思います. outlook=overcast の値が非常に大きいのは、見通しが曇っている場合、オッズが非常に高く、プレーが「はい」に等しいからです。
混同行列は、正しく分類されたテストデータポイントと正しく分類されていないテストデータポイントの数を示すだけです。あなたの例では、7 つの A が実際には A として分類されましたが、2 つの A は B として誤分類されました。あなたの質問は、この質問でより完全に回答されています。

weka - Weka ロジスティック回帰の出力を解釈する方法は?

1 に答える 1

Related

Reference