私のデータで奇妙な結果が得られました。あなたまたは他の誰かがそれに洞察を持っているのではないかと思います..約16000の属性を持つ約5000のデータがあり、RBF svmをトレーニングしました(私はmatlabでlibsvmを使用しています)クラスごとに2000個のデータを使用し(クラスは2つしかありません)、残りのデータ(約1000個のデータ)でテストします。
奇妙な部分は、結果のすべての確率推定値が同じ値であるため、1 つのクラスに属する 100% のテスト データが正しい予測になり、残りの 100% が間違っているということです。入力が何であれ、それは最初のクラスを予測します..
RBF の最適なパラメーターを見つけるために相互検証を試みましたが、精度は 50% から遠く離れていませんでした (これは、半分が 100% 正しく、半分が 100% 間違っている理由を推測できます)。最大の精度は 51.25% でした。
次に、線形 SVM を試してみましたが、確率推定値は少なくとも以前と同じ値ではありませんが、以前のように 100% ではありませんが (一方のクラスで 97%、他方のクラスで 4%)、結果は同じ傾向を示したので、ええ、主な問題は、テスト データが何であれ、1 つのクラスを優先することです。
データをセンタリングまたはスケーリングしようとはしていませんが、違いはありますか?
皆さんは何か考えがありますか?本当に感謝します。ありがとう。