ランダムフォレスト分類子は初めてです。これを使用して、2つのクラスを持つデータセットを分類しています。-特徴の数は512です。-データの比率は1:4です。つまり、データの75%は最初のクラスからのものであり、25%は2番目のクラスからのものです。-私は500本の木を使用しています。
分類器は、21.52%のアウトオブバッグエラーを生成します。最初のクラス(トレーニングデータの75%で表される)のクラスごとのエラーは0.0059です。2番目のクラスの分類エラーは非常に高いですが:0.965。
私はこの振る舞いの説明を探しています、そしてあなたが2番目のクラスの精度を改善するための提案があれば。
どうぞよろしくお願いいたします。
ありがとう
Rを使用していて、上記のテストでノードサイズ1000を使用したことを忘れてしまいました。
ここでは、10本のツリーとnodesize = 1(アイデアを与えるため)のみでトレーニングを繰り返しました。以下は、Rの関数呼び出しと混同行列です。
- randomForest(formula = Label〜。、data = chData30PixG12、ntree = 10、importance = TRUE、nodesize = 1、keep.forest = FALSE、do.trace = 50)
ランダムフォレストの種類:分類
樹木の数:10
各分割で試行された変数の数:22
エラー率のOOB推定:24.46%
混同行列:
無関係、関連、class.error
- 無関係37954、4510、0.1062076
- 関連する8775、3068、0.7409440