0

各クラスのトレーニング サンプル サイズを等しくする必要があるかどうか教えてください。

このシナリオを使用できますか?

          class1   class2  class3
samples    400      500     300

または、すべてのクラスのサンプルサイズを等しくする必要がありますか?

4

2 に答える 2

7

KNN の結果は、基本的に次の 3 つの要素に依存します (N の値を除く)。

  • トレーニング データの密度: 各クラスのサンプル数はほぼ同じである必要があります。正確である必要はありませんが、10% 以上の差異はないと思います。そうしないと、境界が非常に曖昧になります。
  • トレーニング セット全体のサイズ: モデルを未知のサンプルに一般化できるように、トレーニング セットに十分な数のサンプルが必要です。
  • ノイズ: KNN は本質的にノイズに非常に敏感であるため、トレーニング セット内のノイズをできるだけ避けたいと考えています。

2D 空間でドーナツのような形状を学習しようとしている次の例を考えてみましょう。

トレーニング データの密度が異なると (ドーナツの外側よりも内側に多くのトレーニング サンプルがあるとします)、決定境界は次のようにバイアスされます。

ドーナツ悪い

一方、クラスが比較的バランスが取れている場合は、ドーナツの実際の形状に近い、より細かい決定境界が得られます。

ここに画像の説明を入力

したがって、基本的には、データセットのバランスをとることをお勧めします (何らかの方法で正規化するだけです)。また、上記の他の 2 つの項目も考慮してください。問題はありません。

不均衡なトレーニング データを処理する必要がある場合は、WKNN アルゴリズム (KNN の最適化のみ) を使用して、要素の少ないクラスにより強い重みを割り当てることも検討できます。

于 2012-04-19T03:59:05.493 に答える
-1

k 最近傍法はサンプル サイズに依存しません。サンプルサイズの例を使用できます。たとえば、k 最近傍点を持つ KDD99 データ セットに関する次の論文を参照してください。KDD99は、例のデータセットよりも大幅に不均衡なデータセットです。

于 2012-04-17T11:09:13.130 に答える