13

以下は、adaboost アルゴリズムです。 ここに画像の説明を入力

パート3.1で「トレーニングデータに重みwiを使用する」と述べています。

重みの使い方がよくわかりません。トレーニング データをリサンプリングする必要がありますか?

4

2 に答える 2

14

重みの使い方がよくわかりません。トレーニング データをリサンプリングする必要がありますか?

使用している分類器によって異なります。

分類子がインスタンスの重み (重み付けされたトレーニング例) を考慮できる場合、データを再サンプリングする必要はありません。分類器の例としては、加重カウントを累積する単純ベイズ分類器や、加重 k 最近傍分類器があります。

それ以外の場合は、インスタンスの重みを使用してデータを再サンプリングする必要があります。つまり、より多くの重みを持つインスタンスを複数回サンプリングできます。一方、重みがほとんどないインスタンスは、トレーニング データにさえ表示されない場合があります。他の分類子のほとんどは、このカテゴリに分類されます。

実際には

実際には、決定切り株、線形判別式などの非常に単純な分類子のプールのみに依存する場合に、ブースティングのパフォーマンスが向上します。この場合、リストしたアルゴリズムは実装が簡単な形式です (詳細については、こちらを参照してください ここに画像の説明を入力)。

ここに画像の説明を入力

平面で 2 クラスの問題 (たとえば、正方形内の点の円) を定義し、ランダムに生成されたタイプ sign(ax1 + bx2 + c) の線形判別式のプールから強力な分類器を構築します。

2 つのクラス ラベルは、赤い十字と青い点で表されます。ここでは、一連の線形判別式 (黄色の線) を使用して、単純/弱分類器のプールを構築しています。グラフの各クラス (円の内側または外側) に対して 1000 のデータ ポイントを生成し、データの 20% をテスト用に予約します。

ここに画像の説明を入力

これは、50 個の線形判別式を使用して取得した (テスト データセット内の) 分類結果です。トレーニング エラーは 1.45%、テスト エラーは 2.3% です。

ここに画像の説明を入力

于 2013-08-06T18:23:35.600 に答える