ランダム フォレスト分類器をトレーニングするには、バギング(ブートストラップ アグリゲーティングの略) 手法を使用する必要があります。ここでこの学習手法の説明を読みましたが、最初にデータセットをどのように整理するかわかりませんでした。
現在、最初にすべての正の例をロードし、負の例の直後にロードします。また、正の例は負の例の半分以下であるため、データセットから一様にサンプリングすることで、負の例を取得する確率は正の例を取得する確率よりも大きくなります。
初期データセットはどのように構築すればよいですか? 正例と負例を含む初期データセットをシャッフルする必要がありますか?