6

関連する質問であるトレーニング セットのポジティブ/ネガティブの割合は、Rocchio アルゴリズムにとってポジティブとネガティブのトレーニング例の比率が 1 対 1 であることが示唆されていることに気付きました。

ただし、この質問は、ランダム フォレスト モデルに関するものであり、次の 2 つの点でも関連する質問とは異なります。

1) 使用するトレーニング データがたくさんありますが、より多くのトレーニング サンプルを使用する際の主なボトルネックは、トレーニングの反復時間です。つまり、迅速に反復したいので、1 つのランカーをトレーニングするのに 1 晩以上かかることは避けたいと考えています。

2) 実際には、分類器はおそらく 4 つの負の例ごとに 1 つの正の例を見るでしょう。

この状況では、ポジティブな例よりもネガティブな例を多く使用してトレーニングする必要がありますか?

4

2 に答える 2

3

これは些細な答えのように思えるかもしれませんが、私が提案できる最善の方法は、データの小さなサブセット (アルゴリズムがすばやくトレーニングできるほど小さい) を試して、1-1、1-2 を使用したときの精度を観察することです。 、1-3など...

各比率の例の合計数を徐々に増やしながら結果をプロットし、パフォーマンスがどのように応答するかを確認します。多くの場合、データの一部が完全なデータセットでのトレーニングのパフォーマンスに非常に近くなることがわかります。その場合、質問に対して十分な情報に基づいた決定を下すことができます。

それが役立つことを願っています。

于 2013-08-01T09:00:12.507 に答える