1

SVM の例を見つけましたが、理解できませんでした。誰かが予測がどのように機能するかを説明していただければ幸いです。以下の説明を参照してください。

データセットには、5 つの属性( 、、、 ) を持つ10,000 の観測値があります。ラベルがクラスに属しているかどうか、および他のクラスに属しているかどうかを取得します。Sepal WidthSepal LengthPetal WidthPetal LengthLabelpositiveI.setosanegative

結果がわかっている観測値は6000 あります(つまり、それらはクラスに属しているI.setosaため、ラベル属性が陽性になります)。残りの4000のラベルは不明であるため、ラベルは負であると想定されました。6000 個の観測値と、残りの4000個からランダムに選択された2500個の観測値が、 10 分割交差検証のセットを形成します。次に、SVM (10 倍交差検証) が8500 個の観測値の機械学習に使用され、ROCがプロットされます。

ここでどこを予測していますか?このセットには、値が既知の6000 個の観測値があります。残りの2500 人はどのようにしてネガティブ ラベルを取得したのですか? SVM を使用すると、正の観測値の一部が負の予測になります。ここでの予測は私には意味がありませんでした。これらの1500 の観測が除外されるのはなぜですか。

私の説明が明確であることを願っています。明確に説明していないことがあれば教えてください。

4

2 に答える 2

1

問題は意味論的なものだと思います.4000個のサンプルのセットを「不明」と「ネガティブ」の両方であると言及しています.これらのどれが重要な違いです.

4000 個のサンプルのラベルが本当に不明な場合は、6000 個のラベル付きサンプルを使用して 1 クラス SVM を実行します [以下の検証を参照]。そして、N=4000 セットをテストして setosa クラスに属しているかどうかを評価することで、予測が生成されます。

代わりに、6000 の setosa と 4000 の (既知の) non-setosa がある場合、このデータに基づいてバイナリ分類器を構築し [以下の検証を参照]、それを使用して setosa と non を予測することができます。 -ラベル付きデータ。

検証:通常、モデル構築プロセスの一環として、ラベル付けされたトレーニング データのサブセットのみを取得し、それを使用してモデルを構成します。未使用のサブセットについては、(ラベルを無視して) モデルをデータに適用し、モデルが予測するものと真のラベルを比較して、エラー率を評価します。これは、上記の 1 クラスと 2 クラスの両方の状況に適用されます。

要約: すべてのデータがラベル付けされている場合、通常、モデル検証プロセスの一部として、(既知のラベルを無視して) それらのサブセットの予測を行います。

于 2013-06-20T12:21:25.303 に答える
0

SVM 分類器は、新しい (未知の) インスタンスが I. Setosa のインスタンスであるかどうかを判断するようにトレーニングされています。つまり、ラベルのない新しいインスタンスが I.Setosa であるかどうかを予測しています。

誤って分類された結果が見つかったのは、おそらく、トレーニング データに負のケースよりも正のケースのインスタンスの方がはるかに多いためです。また、多少の誤差が生じることもよくあります。

要約: SVM 分類子は I.Setosa インスタンスを識別する方法を学習しましたが、提供された非 I.Setosa インスタンスの例が少なすぎたため、偏ったモデルになる可能性があります。

于 2013-12-06T15:01:38.773 に答える