1

(パッケージのデータセットRを使用して)おもちゃのランダム フォレスト モデルを構築し、ライブラリを使用してそれをエクスポートし、Hadoop にデプロイしました。German CreditcaretPMML 4.0Cascading Pattern

Cascading Pattern同じデータのスコアが (バイナリ分類問題で) の同じモデルとは異なるという問題に遭遇しましたR。200 回の観測のうち、2 回の採点が異なります。

どうしてこれなの?ランダム フォレストの実装の違いによるものでしょうか?

4

2 に答える 2

2

German Creditデータセットは分類タイプの問題を表しています。分類型 RF モデルの勝利スコアは、単純に、メンバー決定木の中で最も頻度が高かったクラス ラベルです。

100 個の決定木を持つ RF モデルがあり、50 個の決定木が「良い信用」を予測し、別の 50 個の決定木が「悪い信用」を予測するとします。このような同点の状況を別の方法Rで解決することは可能です。一方は最初に表示されたスコアを選択し、もう一方は最後に表示されたスコアを選択します。Cascading Pattern奇数のメンバー決定木を使用して RF モデルの再トレーニングを試みることができます (つまり、99 や 101 など、2 で割り切れない値を使用します)。

PMML 仕様では、最初に表示されたスコアを返すように指示されています。Cascading Patternそのような詳細に注意を払っているかどうかはわかりません。JPMML-Cascadingと呼ばれる代替ソリューションを試してみることをお勧めします。

于 2014-10-18T06:43:50.383 に答える