関連する質問であるトレーニング セットのポジティブ/ネガティブの割合は、Rocchio アルゴリズムにとってポジティブとネガティブのトレーニング例の比率が 1 対 1 であることが示唆されていることに気付きました。
ただし、この質問は、ランダム フォレスト モデルに関するものであり、次の 2 つの点でも関連する質問とは異なります。
1) 使用するトレーニング データがたくさんありますが、より多くのトレーニング サンプルを使用する際の主なボトルネックは、トレーニングの反復時間です。つまり、迅速に反復したいので、1 つのランカーをトレーニングするのに 1 晩以上かかることは避けたいと考えています。
2) 実際には、分類器はおそらく 4 つの負の例ごとに 1 つの正の例を見るでしょう。
この状況では、ポジティブな例よりもネガティブな例を多く使用してトレーニングする必要がありますか?