現在、マルチクラス分類の問題で scikit-learn の LogisticRegression を使用しています。LogisticRegression を使用することに決めたのは、LogisticRegression が返す予測確率に関して十分に調整されたアルゴリズムであると説明している記事をいくつか読んだからです。
分類器の各結果について、その予測確率と、分類された観測値と同じ決定クラスを持つトレーニング セット内の残りの例との間の距離を調べます。
クラスが 90% 以上の信頼度で予測されていたとしても、結果の一部については、コサイン類似度測定により、与えられた例がトレーニングで同じクラスの例のセットと平均してほぼ直交していることを示唆していることに驚いています。設定。
なぜそのような不一致が観察されるのかについて、誰かが手がかりを提供できますか?
同じクラスの残りの観測値からかなり離れている例では、LogisticRegression アルゴリズムは低い予測確率を返すと思います。