3

スタッカー アンサンブルを作成する必要があります。各分類器から出力された各要約された精度のパーセンテージを新しい分類器と組み合わせますか?

Nベイズ

Result = 0.61% accuracy

K-NN (k = 5)

Result = 0.63% accuracy

K-NN (k = 10)

Result = 0.64% accuracy

決定木

Result = 0.60% accuracy

ロジスティック回帰

Result = 0.62% accuracy

それらの 5 つのパーセンテージを分類しますか?

または、テーブルのようなものなど、多くの予測の出力を組み合わせる必要がありますか?

NB   k = 5  k = 10  dectree   Logistic   TrueLabel    
bob    1      1      bob       FALSE       bob
bob    2      2      john      TRUE        john
bob    1      1      bob       TRUE        bob

この方法の場合、出力が異なるかどうかは重要ですか IE はすべて、true または false または 1 または 2 ではなく、bob または john のいずれかである必要がありますか?

それらを組み合わせるためにどの分類器を使用すればよいですか?

4

1 に答える 1

1

スタッキングアンサンブルを作成するには、質問の最後に作成したテーブルを使用する必要があります。つまり、次のようになります。

NB   k = 5  k = 10  dectree   Logistic   TrueLabel    
bob    1      1      bob       FALSE       bob
bob    2      2      john      TRUE        john
bob    1      1      bob       TRUE        bob

「それらはすべて、true または false または 1 または 2 ではなく、bob または john のいずれかにする必要がありますか?」に対する答え。個々のモデルを組み合わせるために使用するモデルに依存するということです。ほとんどのモデルはr要因を使用して動作しますが、その場合はそのままにしておいて問題ありません。最初と2番目の列(数値を持つ)も因子として扱われることを確認してください。そうしないと、数値として扱われ、望ましくありません(多くのモデルは因子からダミー変数を作成し、列が数値の場合これは起こりません)。これを要約するには、上記のすべての列の係数を使用しますが、組み合わせモデルのドキュメント (これについては後で説明します) を読んで、入力として係数を受け入れるかどうかを確認してください。

入力を組み合わせるためにどのモデルを使用する必要があるかについての他の質問については、答えは「好きなモデル」です。通常は、単純なロジスティック回帰を使用しますが、これは他の好きなものを選択することを妨げるものではありません。アイデアは、元の変数 (個々のモデルのトレーニングに使用した変数) と、作成した上記のテーブル (つまり、個々のモデルの予測) を使用して、新しい精度が個々の精度よりも優れているかどうかを確認することです。新しい結合モデルでは、重要でない変数を削除するために、前方選択または後方選択などの機能除去手法を引き続き使用できます。

これがあなたの質問に答えることを願っています。

于 2015-04-18T16:13:58.543 に答える