0

KNN 分析を実行する proc discrim ステートメントがあります。k = 1 を設定すると、すべてにカテゴリが割り当てられます (予想どおり)。ただし、k > 1 の場合、いくつかの観測が割り当てられないままになります (カテゴリをその他として設定します)。

これは、2 つ以上のカテゴリに対するデッドロック投票の結果であると想定しています。デッドロックされた投票のランダムな 1 つを回答として使用するか、デッドロックされた投票の最も近いものを回答として使用することで、これを回避する方法があることを私は知っています。

この機能は proc discrim で利用できますか? デッドロックに対処する方法をどのように伝えますか?

乾杯!

4

1 に答える 1

1

「その他」クラスへの観測の割り当ては、指定されたクラスの 2 つ以上への割り当ての同じ確率の結果であるという仮定は、最近傍の数が 2 つ以上の場合に正しいです。これは、PROC DISCRIM ステートメントのオプション OUT=SASdsn を指定して、プロシジャが入力オブザベーションをどの程度分類したかを示す SAS 出力データセットを書き込むことで確認できます。この出力データセットには、指定された各クラスに割り当てられる確率が含まれています。たとえば、アイリス データ セットで 2 つの最近傍 (K=2) を使用すると、5 つの観測値が生成され、プロシージャによってあいまいと分類されます。Versicolor クラスまたは Virginica クラスのいずれかに割り当てられる確率は 0.50 です。出力データセットから、これらのあいまいに分類されたオブザベーションを選択し、後続の DATA ステップでこれらのクラスにランダムに割り当てることができます。または、これらのあいまいに分類された観測値を分類するために使用される変数の値を、各クラスのこれらの値の平均と比較できます。おそらく、各値の標準偏差によって標準化された平方距離 +/- を計算し、 「最も近い」クラスへの観察。

于 2012-12-27T16:13:06.540 に答える