5

AdaBoost アルゴリズムを実装しようとしていますが、2 つの質問があります。

1) 反復ごとに、確率分布に従ってトレーニング データを再サンプリングする必要があります。再サンプリングされたデータ セットのサイズは、元のデータ セットのサイズと同じである必要があります。2) 確率分布に従ってトレーニング データ セットを再サンプリングすると、1 つのデータ ポイントに対して複数のコピーを取得できる可能性が高くなります。各反復で弱分類器をトレーニングしている間、これらの冗長コピーをすべて保持する必要があります。

4

1 に答える 1

3

1) データセットを実際に再サンプリングする必要はありません。分類器のトレーニングでデータポイントを重み付けするだけで十分ですつまり、弱分類器の目的関数を重み付けする必要があります。

データセットのサイズが十分に大きい場合は、おそらくサンプリングも使用でき、サンプリングするデータセットのサイズ自体は問題になりません。

2)サンプリングを使用して冗長コピーを取得する場合は、それらを保持する必要があります。そうしないと、弱分類器の目的関数正しくなくなります。

于 2012-12-06T16:10:06.010 に答える