0

デシジョンツリーのノイズに対抗するための良い戦略は何ですか?

私のトレーニングデータでは、

同じ属性を持つ 2 つのレコードがありますが、分類が異なります。

  1. 女性、高級、LV、はい
  2. 女性、高級、LV、なし

私の読書に基づいて、これら2つのレコードの複数分類を返すように言っています。

しかし、予測の出力は「はい」または「いいえ」のいずれかである必要があるため、予測を行いたいときに問題が発生します。

したがって、この場合に予測に使用できる戦略は何かを見つけようとしています。

ありがとうございました。

4

1 に答える 1

0

クラス予測が未定の場合:

  1. 最も簡単な(そして一般的な)アプローチは、多数派クラスを予測することです。
  2. さらに情報を入手してください。たとえば、追加の属性を含める(利用可能な場合)か、より多くのトレーニングサンプルを取得します(利用可能な場合)。
  3. いくつかの情報を削除します。予測情報を可能な限り保持しながら、可能な限り多くのノイズ源を除去することを目的としています。通常、これは不要な属性を削除することによって行われます。木の場合は剪定することでできます。最終的には、外れ値(誤って測定されたサンプルなど)を削除できますが、どのサンプルが外れ値であるかを知る必要があります。
于 2012-11-24T11:18:55.763 に答える