language-agnostic - ランダムフォレストの out of bag エラーとは何ですか?

Question

ランダムフォレストの out of bag エラーとは何ですか? ランダムフォレストで適切な数の木を見つけるための最適なパラメーターですか?

score 183 · Accepted Answer

私は説明しようとします：

トレーニングデータセットが T で表され、データセットに M 個の特徴 (または属性または変数) があるとします。

T = {(X1,y1), (X2,y2), ... (Xn, yn)}

と

Xi is input vector {xi1, xi2, ... xiM}

yi is the label (or output or class).

RF の概要:

ランダムフォレストアルゴリズムは、主に 2 つの方法に基づく分類器です。

袋詰め
ランダム部分空間法。

Sフォレストに多数のツリーを配置することにしたとします。まず、置換を使用して T のデータをランダムにリサンプリングして作成されたSのデータセットを"same size as original"作成します (データセットごとに n 回)。これにより、{T1, T2, ... TS}データセットが作成されます。これらはそれぞれ、ブートストラップデータセットと呼ばれます。「with-replacement」により、すべてのデータセットTiに重複したデータレコードが含まれる可能性があり、Ti は元のデータセットからいくつかのデータレコードが失われる可能性があります。これはと呼ばれBootstrappingます。(en.wikipedia.org/wiki/Bootstrapping_(統計))

バギングは、ブートストラップを取得し、各ブートストラップで学習したモデルを集約するプロセスです。

現在、RF はSツリーを作成m (=sqrt(M) or =floor(lnM+1))し、可能な機能からランダムなサブ機能を使用Mして任意のツリーを作成します。これをランダム部分空間法と呼びます。

したがって、ブートストラップデータセットごとTiにツリーを作成しますKi。いくつかの入力データを分類したい場合はD = {x1, x2, ..., xM}、各ツリーを通過させ、Sで表すことができる出力 (各ツリーに 1 つ) を生成しますY = {y1, y2, ..., ys}。最終的な予測は、このセットの多数決です。

バッグ外エラー:

分類子 (Sツリー)を作成した後(Xi,yi)、元のトレーニングセットのそれぞれについて、つまりを含まないものTをすべて選択します。このサブセットは、元のデータセットの特定のレコードを含まないブーストラップデータセットのセットです。このセットは out-of-bag の例と呼ばれます。このようなサブセットがあります(元のデータセット T の各データレコードに 1 つ)。OOB 分類子は、含まれていない投票のみの集計です。Tk(Xi,yi)nTk(xi,yi)

汎化誤差の out-of-bag 推定値は、トレーニングセットの out-of-bag 分類器のエラー率です (既知yiのものと比較してください)。

どうしてそれが重要ですか？

Breiman [1996b]のバギングされた分類器のエラー推定の研究では、out-of-bag 推定がトレーニングセットと同じサイズのテストセットを使用した場合と同じくらい正確であることを示す経験的証拠が得られています。したがって、out-of-bag エラー推定を使用すると、取っておいたテストセットが不要になります。¹

（訂正してくれた@Rudolfに感謝します。以下の彼のコメント。）

score 56 · Accepted Answer

Breiman のランダムフォレストアルゴリズムの最初の実装では、各ツリーはトレーニングデータ全体の約 2/3 でトレーニングされます。フォレストが構築されると、各ツリーは、そのツリーの構築に使用されていないサンプルでテストできます (相互検証を 1 つ除外するのと同様)。これは、アウトオブバッグエラー推定値です。つまり、構築中のランダムフォレストの内部エラー推定値です。

language-agnostic - ランダム フォレストの out of bag エラーとは何ですか?

2 に答える 2

Related

Reference

language-agnostic - ランダムフォレストの out of bag エラーとは何ですか?