だから私は決定木プログラムを書いている最中です。1000 インスタンスのデータセットがあるとします。私が理解しているように、相互検証を使用して、データセットを900〜100のグループに分割しました。毎回異なる 900 セットを使用してツリーを作成し、100 セットを使用してテストします
私が理解していないのは、これらの質問です: 1. 最終的な決定木としてどの木を使用しますか (過適合が原因である可能性があるため、エラーが最も少ないものを選択することは適切なオプションではありません) 2クロス検証は、最終的なツリーのエラーを推定するためだけに使用されますか? 3. 交差検証に関するいくつかの異なるアルゴリズムを見つけました。同じ分割基準を使用したものもあれば、最良のツリーを選択するために異なるものを使用したものもありました。必要?またはあなた自身を説明しますか?
ありがとうございました!