SVM の例を見つけましたが、理解できませんでした。誰かが予測がどのように機能するかを説明していただければ幸いです。以下の説明を参照してください。
データセットには、5 つの属性( 、、、 ) を持つ10,000 の観測値があります。ラベルがクラスに属しているかどうか、および他のクラスに属しているかどうかを取得します。Sepal Width
Sepal Length
Petal Width
Petal Length
Label
positive
I.setosa
negative
結果がわかっている観測値は6000 あります(つまり、それらはクラスに属しているI.setosa
ため、ラベル属性が陽性になります)。残りの4000のラベルは不明であるため、ラベルは負であると想定されました。6000 個の観測値と、残りの4000個からランダムに選択された2500個の観測値が、 10 分割交差検証のセットを形成します。次に、SVM (10 倍交差検証) が8500 個の観測値の機械学習に使用され、ROCがプロットされます。
ここでどこを予測していますか?このセットには、値が既知の6000 個の観測値があります。残りの2500 人はどのようにしてネガティブ ラベルを取得したのですか? SVM を使用すると、正の観測値の一部が負の予測になります。ここでの予測は私には意味がありませんでした。これらの1500 の観測が除外されるのはなぜですか。
私の説明が明確であることを願っています。明確に説明していないことがあれば教えてください。