0

だから私は決定木プログラムを書いている最中です。1000 インスタンスのデータセットがあるとします。私が理解しているように、相互検証を使用して、データセットを900〜100のグループに分割しました。毎回異なる 900 セットを使用してツリーを作成し、100 セットを使用してテストします

私が理解していないのは、これらの質問です: 1. 最終的な決定木としてどの木を使用しますか (過適合が原因である可能性があるため、エラーが最も少ないものを選択することは適切なオプションではありません) 2クロス検証は、最終的なツリーのエラーを推定するためだけに使用されますか? 3. 交差検証に関するいくつかの異なるアルゴリズムを見つけました。同じ分割基準を使用したものもあれば、最良のツリーを選択するために異なるものを使用したものもありました。必要?またはあなた自身を説明しますか?

ありがとうございました!

4

1 に答える 1

2

Cross validationモデルがどの程度正確に予測しているかを推定するために使用されます。

最良のツリーは、最良の分類器で構成されている必要があります。つまり、データを適切に分離する属性であるため、その属性を使用して意思決定ツリーの構築を開始できます。

検索して、詳細情報を入手することをお勧めWikipediaUncle Googleますdecision trees

于 2013-02-08T13:13:06.853 に答える