0

weka で離散化を行う適切な時期を知る必要があります。データセットがあり、そのデータからトレーニングとテストのデータ サンプルを作成する必要があります。サンプリング前またはサンプリング後に数値属性の離散化を行う必要がありますか?

4

1 に答える 1

2

これは明らかなはずです。

実行された分割に関係なく同じ結果が得られる限り、後で分割できます。しかし、その利点は何ですか?最初に前処理を行うだけです。

丸めによって離散化する場合 (浮動小数点数から整数など) は問題ありません (分割の影響を受けません)。しかし、たとえば分位数で離散化すると、さまざまな部分を別々に離散化するため、ひどく失敗する可能性があることは明らかです。

データを 2 つの異なる値に離散化するとします。

Input data    Type     Output value
0.9           good     1.05
1.0           good     1.05
1.1           good     1.05
1.2           good     1.05
---
2.1           good     2.20
2.3           good     2.20
2.2           good     2.20
---  SPLIT HERE ---
1.1           bad      1.20
1.2           bad      1.20
1.3           bad      1.20
---
1.9           bad      2.00
2.0           bad      2.00
2.1           bad      2.00

値の各クラスターの平均を使用して、「良い」と「悪い」の両方が 2 つの離散値に離散化されていることを確認してください。しかし、「良い」と「悪い」の平均値が異なるため、結果の属性は真のメンバーシップを明確に示しています。「不良」を検出するタスクが大幅に簡単になりました。

個別の前処理は絶対に行わないでください。

于 2013-02-12T07:44:39.027 に答える