r - AdaBoost アルゴリズムの実装に関する質問

Question

AdaBoost アルゴリズムを実装しようとしていますが、2 つの質問があります。

1) 反復ごとに、確率分布に従ってトレーニングデータを再サンプリングする必要があります。再サンプリングされたデータセットのサイズは、元のデータセットのサイズと同じである必要があります。2) 確率分布に従ってトレーニングデータセットを再サンプリングすると、1 つのデータポイントに対して複数のコピーを取得できる可能性が高くなります。各反復で弱分類器をトレーニングしている間、これらの冗長コピーをすべて保持する必要があります。

score 3 · Accepted Answer

1) データセットを実際に再サンプリングする必要はありません。分類器のトレーニングでデータポイントを重み付けするだけで十分です。つまり、弱分類器の目的関数を重み付けする必要があります。

データセットのサイズが十分に大きい場合は、おそらくサンプリングも使用でき、サンプリングするデータセットのサイズ自体は問題になりません。

2）サンプリングを使用して冗長コピーを取得する場合は、それらを保持する必要があります。そうしないと、弱分類器の目的関数が正しくなくなります。

r - AdaBoost アルゴリズムの実装に関する質問

1 に答える 1

Related

Reference