1

ランダム フォレスト分類器をトレーニングするには、バギング(ブートストラップ アグリゲーティングの略) 手法を使用する必要があります。ここでこの学習手法の説明を読みましたが、最初にデータセットをどのように整理するかわかりませんでした。

現在、最初にすべての正の例をロードし、負の例の直後にロードします。また、正の例は負の例の半分以下であるため、データセットから一様にサンプリングすることで、負の例を取得する確率は正の例を取得する確率よりも大きくなります。

初期データセットはどのように構築すればよいですか? 正例と負例を含む初期データセットをシャッフルする必要がありますか?

4

1 に答える 1

2

バギングは、ブートストラップ サンプルを使用してさまざまな予測子をトレーニングし、その結果を集計することに依存しています。詳細については上記のリンクを参照してください。簡単に言えば、繰り返しを使用してデータからサンプリングする必要があります (つまり、1 から N までの番号が付けられた N 個の要素がある場合、1 から N までの K 個のランダムな整数を選択し、それらの N 個の要素を選択して、通常、元のデータセットと同じサイズのサンプルを作成します (つまり、K=N)。

おそらく心に留めておくべきもう 1 つのこと - ランダム フォレストは、元のデータに対する単なるブートストラップ集約ではありません - 個々のツリーで使用する機能のサブセットのランダムな選択もあります。

于 2013-02-28T04:06:40.700 に答える