RandomTree 構成で minNum フィールドを観察したとき、weka をいじっていました。「リーフ内のインスタンスの最小総重量」という説明を読みました。しかし、それが何を意味するのか、私にはよく理解できませんでした。
その数をいじってみると、それを増やすと生成されるツリーのサイズが小さくなることに気付きました。なぜこれが起こっているのかを関連付けることができませんでした。
ヘルプ/リファレンスをいただければ幸いです。
RandomTree 構成で minNum フィールドを観察したとき、weka をいじっていました。「リーフ内のインスタンスの最小総重量」という説明を読みました。しかし、それが何を意味するのか、私にはよく理解できませんでした。
その数をいじってみると、それを増やすと生成されるツリーのサイズが小さくなることに気付きました。なぜこれが起こっているのかを関連付けることができませんでした。
ヘルプ/リファレンスをいただければ幸いです。
これは、リーフ ノードのインスタンスの最小数に関係しています (J48 などの決定木では、多くの場合、デフォルトで 2 です)。このパラメーターを高く設定するほど、ツリーはより一般的になります。これは、インスタンスの数が少ないリーフが多数あると、ツリー構造が細かくなりすぎるためです。
iris
データセットの 2 つの例を次に示します。これは、-M
オプションが結果のツリーのサイズにどのように影響するかを示しています。
$ weka weka.classifiers.trees.RandomTree -t iris.arff -i
petallength < 2.45 : Iris-setosa (50/0)
petallength >= 2.45
| petalwidth < 1.75
| | petallength < 4.95
| | | petalwidth < 1.65 : Iris-versicolor (47/0)
| | | petalwidth >= 1.65 : Iris-virginica (1/0)
| | petallength >= 4.95
| | | petalwidth < 1.55 : Iris-virginica (3/0)
| | | petalwidth >= 1.55
| | | | sepallength < 6.95 : Iris-versicolor (2/0)
| | | | sepallength >= 6.95 : Iris-virginica (1/0)
| petalwidth >= 1.75
| | petallength < 4.85
| | | sepallength < 5.95 : Iris-versicolor (1/0)
| | | sepallength >= 5.95 : Iris-virginica (2/0)
| | petallength >= 4.85 : Iris-virginica (43/0)
Size of the tree : 17
$ weka weka.classifiers.trees.RandomTree -M 6 -t iris.arff -i
petallength < 2.45 : Iris-setosa (50/0)
petallength >= 2.45
| petalwidth < 1.75
| | petallength < 4.95
| | | petalwidth < 1.65 : Iris-versicolor (47/0)
| | | petalwidth >= 1.65 : Iris-virginica (1/0)
| | petallength >= 4.95 : Iris-virginica (6/2)
| petalwidth >= 1.75
| | petallength < 4.85 : Iris-virginica (3/1)
| | petallength >= 4.85 : Iris-virginica (43/0)
Size of the tree : 11
補足として、ランダム ツリーはバギングに依存しています。つまり、属性のサブサンプリング (各ノードで分割するために K がランダムに選択されます) があります。ただし、REPTree とは異なり、(RandomForest のように) 剪定がないため、非常にノイズの多いツリーになる可能性があります。